regresión - campus.exactas.uba.ar · regresión lineal múltiple consiste en predecir una...
TRANSCRIPT
Aprendizaje AutomáticoSegundo Cuatrimestre de 2018
Clase dada en el pizarrón, basada fuertemente en el Capítulo 3 del libro: James, Witten, Hastie & Tibshirani, "An Introduction to Statistical Learning with Applications in R", 6th ed, Springer, 2015. http://www-bcf.usc.edu/~gareth/ISL/Esta presentación se ofrece sólo a modo de referencia, y no está completa!
Regresión
Problema de Regresión● La variable dependiente Y es numérica:
● Ejemplos:– Ventas en función de la inversión en publicidad.– Edad de un usuario a partir de sus tweets.– Tiempo de demora de un vuelo.– Nota en un examen: – Precio de un departamento:
Variable dependiente
(2 atributos) (1 atributo)
Problema de Regresión● Consiste en predecir una respuesta numérica Y en base a
atributos X1, X2, …, Xp.
f es desconocida; el error puede deberse a errores de medición o a la ausencia de otros atributos que expliquen la variación de Y.
● Un algoritmo de regresión ajusta un modelo a los datos.
● Después sirve para predecir el valor de una nueva instancia:
● Evaluación: error cuadrático medio (MSE) y otras métricas.
error
Árboles de Regresión
● Construcción: – En cada nodo, usar reducción de desvío estándar de Y en
lugar de gini/info gain. – Ejemplo: elegir “barrio” para poder estimar mejor el precio
de una propiedad.
● Consulta: – Al llegar a una hoja, devolver el promedio de Y sobre las
instancias de la hoja.
KNN para Regresión
Fuente: ISLR
Dada una nueva instancia, devolver el promedio (ponderado) de los valores de sus vecinos.
Regresión Lineal Simple● Consiste en predecir una respuesta numérica Y en base a una
única variable predictora X1, suponiendo una relación lineal.
β0 y β1 son desconocidos; el error ahora también puede deberse a que la relación no sea realmente lineal.
● Ejemplo:
● Ajustamos los parámetros del modelo lineal (β0 y β1) a los datos de entrenamiento. Después puede usarse para predecir:
Ordenada al origen (intercept) Pendiente (slope)
Nueva instanciaEstimación de β1Estimación de β0
Valor predicho para Ycuando X1=x1
Estimación de coeficientes
● Residuo o error de predicción:
● Residual sum of squares:
● Los residuos se elevan al cuadrado para sacar el signo y para que RSS sea diferenciable.
● Hay que tener cuidado con los outliers en los datos, porque RSS penaliza los residuos grandes.
Estimación de coeficientes
● Para estimar los coeficientes, buscamos minimizar RSS (lo cual es equivalente a minimizar MSE):
● Con un poco de análisis matemático, llegamos a estas expresiones (ejercicio de la guía):
Predicción de nuevos valores
● Estimados los coeficientes, los podemos usar para predecir:
● En nuestro ejemplo, podríamos predecir el precio de un departamento de 75m2:
Regresión Lineal Múltiple
● Consiste en predecir una respuesta numérica Y en base a múltiples variables predictoras X1, X2, …, Xp, suponiendo una relación lineal.
● MSE, RSS, TSS, R2 se definen en forma análoga que para la regresión lineal simple.
● Los coeficientes también se estiman en forma análoga.
● ¿Qué pasa si hay variables categóricas? (Ejercicio de la guía.)
Evaluación del modeloEnfoque de Aprendizaje Automático
● Similar a un problema de clasificación:– Cross-validation.– Usar el error cuadrático medio (o similar) como métrica que
queremos minimizar.
Evaluación del modeloEnfoque estadístico
● Al ajustar una regresión lineal, es común reportar el error estándar de cada coeficiente estimado: y
● Útil para estimar intervalos de confianza de las predicciones.
● Evaluar la significancia de cada estimador, mediante un test estadístico.
● p-valor bajo (típicamente, p<0.05 o p<0.01) → es improbable observar al azar una asociación semejante entre X e Y.
● p-valor alto → es probable que la asociación observada sea sólo consecuencia del azar.
Evaluación del modeloEnfoque estadístico
● RSS: Variabilidad no explicada por el modelo
● TSS (Total Sum of Squares): Variabilidad total de los datos
● R2: Proporción de la variabilidad explicada por el modelo.
R2 → 0 cuando el modelo explica poco de la variabilidad de los datos.
R2 → 1 cuando el modelo explica mucho de la variabilidad de los datos.