Módulo 3. Modelado de Datos

Materiales del curso

View the Project on GitHub DCSCyHD/2023_modulo_3

Escuela Interdisciplinaria de Altos Estudios Sociales
Universidad Nacional de San Martín

Coordinación:
-Germán Rosati

Equipo Docente:
-Valentín Álvarez | Github | X -Guido Weksler | Github | X
-Magalí Rodrígues Pires
-Nayla Sol Garcilazo | Github

Introducción al modelado de datos

Los modelos estadísticos y de aprendizaje automático son herramientas fundamentales para analizar datos y extraer patrones significativos. En este módulo, se abordarán los modelos de regresión lineal y logística, sus fundamentos teóricos y los métodos de estimación más utilizados, como mínimos cuadrados y máxima verosimilitud. Se explorarán estrategias para la interpretación de los resultados y la validación de los modelos mediante medidas de ajuste, pruebas de hipótesis y diagnósticos.

Además, se introducirán conceptos clave del aprendizaje automático, enfocándose en los problemas de clasificación y regresión dentro del aprendizaje supervisado. Se analizarán aspectos como la diferencia entre error de entrenamiento y error de testing, así como el problema del sobreajuste y su impacto en la generalización de los modelos.

Para mejorar el desempeño de los modelos y evitar sobreajustes, se estudiarán técnicas de regularización como LASSO y Ridge. Finalmente, se presentará el ecosistema tidymodels, un conjunto de herramientas en R diseñado para facilitar la construcción, validación y comparación de modelos de manera estructurada y reproducible.

Este módulo combina teoría y práctica, brindando a los participantes las herramientas necesarias para desarrollar modelos predictivos aplicados a datos reales.

Librerías a utilizar

En el archivo 0_packages pueden encontrar el código para descargar los paquetes que vamos usar en el módulo , también los dejamos anotados en el siguiente bloque:

install.packages("tidyverse")
install.packages("viridis")
install.packages("corrplot")
install.packages("ggridges")
install.packages("tidymodels")
install.packages("GGally")
install.packages("latex2exp")
install.packages("car")
install.packages("gtsummary")
install.packages("modelsummary")
install.packages("gt")
install.packages("discrim")

Contenidos

*Los materiales están organizados por clase: Pueden descargarse la totalidad de los materiales de cada una para trabajar en un único archivo .zip*

Clase 1 - Introducción: tipos de modelos, trade-offs:


Clase 2 - Explorando y transformando variables. Intro a regresión lineal simple:


Clase 3 - Regresión lineal simple y múltiple:


Clase 4 - Clasificación 1: Regresión logística:


Clase 5 - Clasificación 2: LASSO:


Clase 6 - Métricas de rendimiento y Cross-Validation:


Bibliografía complementaria