learning” vidal “ensemble learning” - inf.utfsm.clcvalle/inf-384/ensemble.pdf · “ensemble...

“EnsembleLearning”

Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting

Diversidad enEnsemble

“Ensemble Learning”

Carlos Valle [email protected]

Departamento de Informatica -Universidad Tecnica Federico Santa Marıa

Santiago, Junio 2009

1 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Temario

1 Introduccion

2 Bagging

3 Stacking Generalization y Bumping

4 Boosting

5 Diversidad en Ensemble

2 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Temario

1 Introduccion

2 Bagging


4 Boosting


3 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Arquitecturas para el aprendizaje de predictores

Sea una funcion desconocida φ : X→ Y , el cual mapea unaentrada X ⊆Rm en una salida Y ⊆R.

Sea d = (x1,y1),(x2,y2), . . . ,(xN ,yN), la muestra de datos,donde cada vector de entrada xn ∈ X, y cada targetyn = φ(xn)+ ε, donde E{ε}= 0

Para escoger la mejor aproximacion f que describa la funcionφ, minimizando el riesgo funcional:

R(f ) = EX×Y [Q(f (x),y)] =∫

X×YQ(f (x),y)dP(x,y) (1)

4 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


. . . Modelo del problema

Se utiliza el conjunto de datos, para calcular riesgo funcionalempırico, a traves de un criterio de induccion:

Remp(f ) = EX×Y [Q(f (x),y)] =N

∑i=1

Q(f (xi),yi) (2)

Para el problema de regresion, se suele utilizar la funcion deperdida cuadratica:

Q(f ) = (f (x)− y)2 (3)

5 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Comite de Maquinas

Usar un conjunto de maquinas o predictores simples, enlugar de una sola. Esto se conoce con el nombre de“Comite de Maquinas” o Ensemble.

Meta Machine Learning (MML): Combinar maquinasgeneradas por tecnicas de aprendizaje automatico (machinelearning).

6 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Ensemble de Maquinas

Razones Estadısticas:1 Distintas Capacidad de generacion2 Grandes Volumenes de datos: Particionar3 Bases de datos pequenas: remuestreo4 Fusion de datos: Diversidad de Fuentes5 Dividir y vencer6 Reduccion de varianza etc.

7 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Ensembles de Maquinas

8 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Temario

1 Introduccion

2 Bagging


4 Boosting


9 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Bagging

Consideremos el problema de regresion. Supongamos queajustamos un modelo a nuestros datos de entrenamientoZ = (x1,y1),(x2,y2), . . . ,(xn,yn), obteniendo la prediccionf (x) para la entrada x.

Bootstrap Agreggation, conocido popularmente comoBagging promedia la prediccion sobre una coleccion demuestras bootstrap. Reduciendo su varianza.

Para cada muestra bootstrap Z∗b,b = 1,2, . . . ,B se ajusta elmodelo, obteniendose una prediccion f ∗b.

10 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Bagging (2)

El estimador Bagging es definido por

fbag(x) =1B

B

∑b=1

f ∗b (4)

Denotemos por P la distribucion empırica que se produce alcolocarle a cada dato (xi,yi), una probabilidad de 1/N de serelegido.La esperanza del estimador bagging se define como EP [f ∗b]donde Z∗ = (x∗1,y

∗1),(x

∗2,y∗2), . . . ,(x

∗N ,y∗N) y cada (x∗i ,y

∗i )∼ P

La ecuacion (4) es un buen estimador de bagging si B→ ∞

EP [Y− f ∗(x)]2 = EP [Y− fag(x)+ fag(x)− f ∗(x)]2

= EP [Y− fag(x)]2 +EP [f ∗(x)− fag(x)]2

≥ EP [Y− fag(x)]2

11 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Bagging (3)

Algoritmo 1 Bagging1: Sea M el numero de predictores requeridos.2: d = {(x1,y1), . . . ,(xN ,yN)}3: for i = 1 hasta M do4: Generar una nueva muestra dbag, eligiendo N muestras des-

de d con reemplazo.5: Entrenar un estimador fi con la muestra dbag y agregarlo al

ensemble.6: end for7: Para cada patron de test x, la salida esta dada por: fbag(x) =

1M ∑i fi(x)

12 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Remuestreo en Ensemblados

Sea S la muestra de entrenamiento Si,u pero reemplazando eli-esimo ejemplo por un punto nuevo arbitrario u. Un algoritmose dice β-estable si

∀S,∀Si,u ∀x |fS(x)− fSi,u(x)| ≤ β (5)

Donde fD es la funcion obtenida entrenando el algoritmo conla muestra D.

Un algoritmo se dice fuertemente β-estable si β = O(1/l)donde l es el tamano de la muestra S.

13 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Remuestreo en Ensamblados(2)

Supongamos que la muestra original esta dividida en nconjuntos distintos de tamano p para generar cada uno de losn miembros del ensamblado. Si cada algoritmo base esβ-estable, el ensemble es fuertemente β-estable conβbagg = pβ/l.

En bagging, la probabilidad de que un patron aparezca en lamuestra de entrenamiento es exactamente (1−1/l)l lo queconverge a ∼ 0,632 cuando l→ ∞.

De esta forma, Bagging puede mejorar la capacidad degeneralizacion robustificando un algoritmo de aprendizaje enprincipio inestable.

14 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Remuestreo en Ensamblados(3)

Todo problema caracterizado por Z = (X,Y), consta depuntos que lo caracterizan, estos datos son denominadosLeverage Points, o puntos palanca o de influencia. Estainfluencia puede ser positiva, o negativa, como en el caso delos outliers.

Leverage points usualmente se encuentran aislados en elespacio de caracterısticas mientras que los no-leveragepoints actuan en grupos - lo cual es consistentes con losconceptos de estabilidad que introdujimos anteriormente.

La probabilidad de que un grupo de tamano k secompletamente ignorada por la muestra bagging es (1−k/l)l

el cual decae exponencialmente con k.

Por ejemplo, para k = 2, (1− k/l)l ∼ 0,14 mientras que parak = 1, (1−1/l)l ∼ 0,37.

15 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Temario

1 Introduccion

2 Bagging


4 Boosting


16 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Stacking generalization

Separemos la data en J conjuntos disjuntos y definamos Lj yL−j como el conjunto de test y de entrenamientorespectivamente dado por el conjunto j-esimo del J-foldcross-validation.

Dado el k-esimo algoritmo de entrenamiento, se entrena elk-esimo predictor con el conjunto de entrenamiento L−j,resultando los modelo M−j

k ,k = 1,2, . . . ,K llamados modelosnivel-0.

Para cada instancia x ∈ L−j, sea v−jk (x), la prediccion de x

que hace el modelo M−jk

17 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Stacking generalization (2)

Sea zkn = M−jk (xn)

La data generada por los modelos nivel-0 sera

LCV = {yn,z1n,z2n, . . .zkn},n = 1,2, . . . ,N

LCV se conoce como data nivel 1.

Utilizaremos un modelo generalizador M, llamadogeneralizador nivel-1.

Para clasificar una instancia x, cada modelo Mk lo predice,generando el vector (y,z1,z2, . . . ,zk), este vector ingresa enel modelo nivel 1 M

18 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Stacking generalization (3)

El modelo de stacking esta dado por

wst = argminw

N

∑i=1

[yi−

M

∑m=1

wm f−im (xi)

]2

(6)

Mejores resultados se obtienen con pesos no negativos, ycon suma 1

Sea P−jki (x), la probabilidad de la i-esima clase, y sea

zkin = P−jki (xn).

Entonces L′CV ={yn,z11n, . . . ,z1cn, . . . ,zk1n, . . . ,zkcn, . . . ,zK1n, . . . ,zKcn},n =1,2, . . . ,N

Para esto, en el nivel 1, se utiliza el modelo M′ sobre la dataanterior.

19 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Bumping

Bagging promedia la prediccion sobre una coleccion demuestras bootstrap.

Bumping no promedia las predicciones, sino que elige elmejor modelo es decir, b = argminb ∑

Ni=1 [yi− f ∗b(xi)]2.

Bumping trata de encontrar un modelo en una buena area delespacio caracterıstico.

20 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Temario

1 Introduccion

2 Bagging


4 Boosting


21 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Boosting

Es una de las tecnicas de aprendizaje mas poderosas de losultimos anos. Fue disenado originalmente para problemas declasificacion, pero puede ser extendido tambien a regresion.

Boosting es un metodo que busca combinar clasificadores“debiles” para formar un poderoso comite.

La version mas popular es AdaBoost.M1 creada por Freund ySchaphire.

Consideremos un problema de dos clases con valores{−1,1}. El error de la muestra es

err =1N

N

∑i=1

I(yi 6= G(xi))

El error esperado en las futuras predicciones esEXY [I(yi 6= G(xi))].

22 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Boosting (2)

Un clasificador debil es uno que obtiene un error un pocomejor que realizar una prediccion aleatoria.

La idea de Boosting es aplicar algoritmos de clasificaciondebiles repetidamente a versiones modificadas de la dataoriginal, produciendo una secuencia de clasificadores debilesGm(x),m = 1,2, . . . ,M.

Las predicciones de todos los clasificadores se combinanmediante mayorıa de votos con peso:

G(x) = sign

(M

∑m=1

αmGm(x)

)(7)

23 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Boosting (3)

α1,α2, . . . ,αM son computadas por boosting y representa lacontribucion de cada Gm(x)En la practica los modelos mas precisos estaran masinvolucrados en la prediccion.

Las modificaciones en la muestra, consisten en aplicar pesosw1,w2, . . . ,wN a cada observacion (xi,yi), i = 1,2, . . . ,N.

Inicialmente wi = 1/N, y en el primer paso se entrena la datade manera usual.

Para cada iteracion m = 2,3, . . . ,M los pesos de cadaobservacion son modificados y se genera una nueva datacon dichos pesos.

En el paso m los datos mal clasificados por Gm−1 tendranmayor peso y los clasificados correctamente tendran menorpeso.

24 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Esquema Boosting

25 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Boosting (4)

Algoritmo 2 Boosting Generico1: Sea M el numero de predictores requeridos y t = {(x1,y1), . . . ,(xn,yn)}.2: Inicializar la distribucion de la muestra Wi = 1/N, i = 1,2, . . . ,N3: for m = 1 TO M do4: Entrenar un clasificador Gm(x) para entrenar la data usando los pesos wi5: Computar

errm =∑

Ni=1 wiI(yi 6= Gm(xi))

∑Ni=1 wi

6: Computar αm = log(1− errm)/errm7: Hacer wi← wi expαmI(yi 6= G(xi)), i = 1,2, . . . ,N8: end for9: Salida G(x) = sign

[∑

Mm=1 αmGm(x)

]

26 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Comparando Boosting

27 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Boosting aproxima un modelo aditivo

Boosting es una forma de escribir un modelo de funcionesbasales

f (x) =M

∑m=1

βmb(x;γm) (8)

donde βm,m = 1,2, . . . ,M son los coeficientes de laexpansion y b(x,γ) ∈R son funciones simples de un vectormultivariado x, caracterizado por un conjunto de parametrosγ.

28 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Boosting aproxima un modelo aditivo (2)

Este tipo de modelo minimizan

mın{βm,γm}M

1

L

(yi,

M

∑m=1

βmb(x;γm)

)(9)

Para resolverlo se requiere de tecnicas de optimizacion degran esfuerzo computacional, sin embargo, esto puede serresuelto ajustando una sola funcion base.

mınβ,γ

L(yi,βb(x;γ)) (10)

29 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Forward Stagewise

Esta tecnica aproxima la solucion de la ecuacion (9) alagregar secuencialmente nuevas funciones basales a laexpansion, sin ajustar los parametros y coeficientes que yase encuentran agregados.

En cada iteracion m se trabaja con la funcion base b(x;γm) yel coeficiente βm se agrega a la expansion anterior fm−1(x),generando fm(x), sin modificar los terminos previamenteagregados.

30 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Forward Stagewise (2)

Usando la funcion de perdida cuadratica

L(y, f (x)) = (y− f (x))2 (11)

Se tiene que

L(yi, fm−1(xi)+βb(x;γ)) = (yi− fm−1(xi)−βb(x;γ))2

= (rim−βb(x;γ))2 (12)

Donde rim = yi− fm−1(xi) es el error residual en la i-esimaobservacion. Por lo tanto, en cada paso se agrega a laexpansion el βmb(x;γm) que mejor modela el residuo.

31 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Forward Stagewise (3)

Algoritmo 3 Forward Stagewise1: Inicializar f0(x) = 02: for m = 1 TO M do3: Computar (βm,γm) = argminβ,γ ∑

Ni=1 L(yi, fm−1(xi)+βb(x;γ))

4: Hacer fm(x) = fm−1(x)+βmb(x;γm)5: end for

32 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


AdaBoost y la perdida exponencial

Adaboost es equivalente a usar la tecnica Forward Stagewisecon la funcion de perdida

L(y, f (x)) = exp(−yf (x)) (13)

Las funciones basales son los clasificadores debilesGm(x) ∈ {−1,1}.Por lo tanto, debemos resolver

(βm,γm) = argminβ,γ

N

∑i=1

exp [−yi(fm−1(xi)+βG(x))] (14)

33 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


AdaBoost y la perdida exponencial (2)

La ecuacion anterior puede expresarse como

(βm,γm) = argminβ,γ

N

∑i=1

w(m)i exp(−βyiG(xi)) (15)

donde w(m)i = exp(yifm−1(x)).

Observemos que no depende de β ni G(x), pero si dependede fm−1, por lo tanto en cada iteracion puede tomar un valordiferente.La solucion de la ecuacion (15) se puede obtener en dospasos.Primero para cualquier β > 0, la solucion de (15) para Gm(x)es

Gm = argminG

N

∑i=1

w(m)i I(yi 6= G(xi)) (16)

Este clasificador minimiza el error en la prediccion de y34 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting



Esto puede expresarse como

e−β∑

yi=G(xi)w(m)

i + eβ∑

yi 6=G(xi)w(m)

i

Y tambien como

(eβ− e−β)N

∑i=1

w(m)i I(yi 6= G(xi))+ e−β

N

∑i=1

w(m)i (17)

35 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting



Colocando el resultado anterior en la ecuacion (15) yresolviendo para β obtenemos

βm =12

log1− errm

errm(18)

donde

errm =∑

Ni=1 w(m)

i I(yi 6= G(xi))

∑Ni=1 w(m)

i

(19)

La aproximacion se actualiza

fm(x) = fm−1(x)+βmGm(x)

Lo que provoca que los pesos en la proxima iteracion seran

w(m+1)i = w(m)

i e−βmyiGm(xi) (20)

36 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting



Usando el hecho de que yiGm(xi) = 2I(yi 6= G(xi))−1, laecuacion anterior se transforma en

w(m+1)i = w(m)

i eαmI(yi 6=Gm(xi))e−βm (21)

Donde αm = 2βm es la cantidad definida en AdaBoost.M1.

El factor e−βm

37 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


. . . Comparacion

Resultados empıricos en clasificacion y regresion ,hanmostrado que Boosting tiene mejor desempeno que Baggingaunque es mas sensible al ruido (presencia de outliers) , y esfacil que se produzca sobre-entrenamiento, es decir, que seajuste demasiado al conjunto de entrenamiento.

38 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Temario

1 Introduccion

2 Bagging


4 Boosting


39 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Diversidad Implıcita y Explıcita

Al momento de construir el ensemble podemos intentar medirla diversidad, y optimizar parametros de diversidad durante laconstruccion del ensemble esto se conoce como Metodo dediversidad explıcita

metodo de diversidad implıcita. Ej. Bagging.

Durante el aprendizaje, una funcion de aproximacion sigueuna trayectoria dentro del espacio de hipotesis. Serıa logicopensar que un mejor ensemble serıa el que cubra una mayorcantidad de puntos dentro del espacio de hipotesis.

40 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Categorıas de Diversidad en Ensemble

Existen tres categorıas en los que un Ensemble puede serubicado:

Punto de partida en el espacio de hipotesis.

Conjunto de hipotesis accesibles.

Espacio de hipotesis transversal.

41 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Punto de partida en el espacio de hipotesis

Estos metodos varıan los puntos de partida dentro delespacio de busqueda, al comenzar cada red con diferentespesos iniciales, se incrementara la probabilidad de que cadared tome una diferente trayectoria. Este es el mas comun delos metodos para generar ensembles

42 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Conjunto de hipotesis accesibles

Estos metodos varıan el conjunto de hipotesis accesible porel ensemble para lograrlo varıan los conjuntos deentrenamiento o la arquitectura de las redes que componenel Ensemble.

Alterando el Conjunto de Entrenamiento, es el tipo de metodomas estudiado para generar Ensembles, y lo hacen variandoligeramente el conjunto de entrenamiento para cada redindividual.

Otra alternativa es darle a los datos diferente representacion,por ejemplo, utilizar una escala logarıtmica

Alterando la Arquitectura de la red

43 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Espacio de hipotesis tranversal

Alteran la forma de viajar dentro del espacio de busqueda,llevando a cada miembro del ensemble a converger a diversashipotesis.

44 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Metodos de Regularizacion

Este tipo de metodos se basan en agregar un factor depenalizacion en la funcion del error.

Tikhonov prueba que al agregar un termino en la funcion delerror, agregado a la funcion objetivo, se puede controlar eldilema sesgo-varianza.

Usando esto, el error de la red i-esima es:

ei =12(fi− y)2 +λR (22)

donde λ es el peso sobre el termino de regularizacion R. Elparametro λ controla el equilibrio entre el errorbackpropagation clasico y el termino de regularizacion.

45 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Metodos Evolutivos

En los algoritmos evolutivos, la diversidad significa explorarlargamente el espacio de busqueda, con el objetivo deencontrar el mejor individuo, creando una poblacion que escomplementaria, pero que asegura maximizar la busquedadentro del espacio de hipotesis.

46 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Diversidad en Ensemble

Una forma de introducir diversidad en un Ensemble de Maquinases la Descomposicion Ambigua:Krog y Vedelsby, prueban que para una entrada, el errorcuadratico medio del estimador del Ensemble es menor o igual, alpromedio del error cuadratico de los componentes del estimador:

(fens− y)2 = ∑i

wi(fi− y)2−∑i

wi(fi− fens)2 (23)

Donde fens es la combinacion convexa de los estimadores:

fens = ∑i

wifi (24)

47 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


. . . Descomposicion Ambigua

∑i

wi(fi− y)2, es el promedio con pesos del error de cada

predictor individual.

∑i

wi(fi− fens)2 es el termino ambiguo, mide la variabilidad

entre las respuestas del ensemble para ese patron.

La Descomposicion Ambigua nos garantiza que el error delensemble es menor al promedio de los errores de cadapredictor individual.

Un valor grande del termino ambiguo, reducirıa el error delensemble, sin embargo la variabilidad crece, aumentandoası el valor del primer termino.

48 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Sesgo y Varianza

La perdida cuadratica puede ser descompuesta en dos partes:sesgo y varianza. Estos dos componentes trabajan en oposicion,es decir, si reducimos el sesgo aumenta la varianza y viceversa.

ED{(f − y)2} = ED{(f −ED{f}+ED{f}− y)2}= ED{[(f −ED{f})+(ED{f}− y)]2}= ED{[(f −ED{f})2 +(ED{f}− y)2}−2(f −ED{f})(ED{f}− y)]2

= ED{[(f −ED{f})2}+(ED{f}− y)2

MSE(f ) = var(f )+ sesgo(f )2 (25)

49 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Sesgo Varianza y Covarianza

Si un ensemble esta formado por un combinacion convexa depesos fens = f , la varianza se descompone, y obtenemos unadescomposicion sesgo-varianza-covarianza para el errorcuadratico medio del estimador f del Ensemble es:

E{(f − y)2}= bias2 +

1M

var +(

1− 1M

)covar (26)

50 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


. . . Sesgo Varianza y Covarianza

sesgo, es el promedio del sesgo de los componentes delensemble:

sesgo =1M ∑

i(Ei{fi}− y) (27)

var , corresponde al promedio de la varianza de los componentesdel ensemble:

var =1M ∑

iEi{(fi−Ei{fi})2} (28)

covar, corresponde al promedio de la covarianza de los miembrosdel ensemble:

covar =1

M(M−1) ∑i

∑j6=i

Ei,j{(fi−Ei{fi})(fj−Ej{fj}} (29)

51 / 52


Carlos ValleVidal

Introduccion

Bagging

Stacking

Boosting


Consultas y Comentarios

52 / 52

learning” vidal “ensemble learning” - inf.utfsm.clcvalle/inf-384/ensemble.pdf · “ensemble...

Documents