learning” vidal “ensemble learning” - inf.utfsm.clcvalle/inf-384/ensemble.pdf · “ensemble...
TRANSCRIPT
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
“Ensemble Learning”
Carlos Valle [email protected]
Departamento de Informatica -Universidad Tecnica Federico Santa Marıa
Santiago, Junio 2009
1 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Temario
1 Introduccion
2 Bagging
3 Stacking Generalization y Bumping
4 Boosting
5 Diversidad en Ensemble
2 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Temario
1 Introduccion
2 Bagging
3 Stacking Generalization y Bumping
4 Boosting
5 Diversidad en Ensemble
3 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Arquitecturas para el aprendizaje de predictores
Sea una funcion desconocida φ : X→ Y , el cual mapea unaentrada X ⊆Rm en una salida Y ⊆R.
Sea d = (x1,y1),(x2,y2), . . . ,(xN ,yN), la muestra de datos,donde cada vector de entrada xn ∈ X, y cada targetyn = φ(xn)+ ε, donde E{ε}= 0
Para escoger la mejor aproximacion f que describa la funcionφ, minimizando el riesgo funcional:
R(f ) = EX×Y [Q(f (x),y)] =∫
X×YQ(f (x),y)dP(x,y) (1)
4 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
. . . Modelo del problema
Se utiliza el conjunto de datos, para calcular riesgo funcionalempırico, a traves de un criterio de induccion:
Remp(f ) = EX×Y [Q(f (x),y)] =N
∑i=1
Q(f (xi),yi) (2)
Para el problema de regresion, se suele utilizar la funcion deperdida cuadratica:
Q(f ) = (f (x)− y)2 (3)
5 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Comite de Maquinas
Usar un conjunto de maquinas o predictores simples, enlugar de una sola. Esto se conoce con el nombre de“Comite de Maquinas” o Ensemble.
Meta Machine Learning (MML): Combinar maquinasgeneradas por tecnicas de aprendizaje automatico (machinelearning).
6 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Ensemble de Maquinas
Razones Estadısticas:1 Distintas Capacidad de generacion2 Grandes Volumenes de datos: Particionar3 Bases de datos pequenas: remuestreo4 Fusion de datos: Diversidad de Fuentes5 Dividir y vencer6 Reduccion de varianza etc.
7 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Ensembles de Maquinas
8 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Temario
1 Introduccion
2 Bagging
3 Stacking Generalization y Bumping
4 Boosting
5 Diversidad en Ensemble
9 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Bagging
Consideremos el problema de regresion. Supongamos queajustamos un modelo a nuestros datos de entrenamientoZ = (x1,y1),(x2,y2), . . . ,(xn,yn), obteniendo la prediccionf (x) para la entrada x.
Bootstrap Agreggation, conocido popularmente comoBagging promedia la prediccion sobre una coleccion demuestras bootstrap. Reduciendo su varianza.
Para cada muestra bootstrap Z∗b,b = 1,2, . . . ,B se ajusta elmodelo, obteniendose una prediccion f ∗b.
10 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Bagging (2)
El estimador Bagging es definido por
fbag(x) =1B
B
∑b=1
f ∗b (4)
Denotemos por P la distribucion empırica que se produce alcolocarle a cada dato (xi,yi), una probabilidad de 1/N de serelegido.La esperanza del estimador bagging se define como EP [f ∗b]donde Z∗ = (x∗1,y
∗1),(x
∗2,y∗2), . . . ,(x
∗N ,y∗N) y cada (x∗i ,y
∗i )∼ P
La ecuacion (4) es un buen estimador de bagging si B→ ∞
EP [Y− f ∗(x)]2 = EP [Y− fag(x)+ fag(x)− f ∗(x)]2
= EP [Y− fag(x)]2 +EP [f ∗(x)− fag(x)]2
≥ EP [Y− fag(x)]2
11 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Bagging (3)
Algoritmo 1 Bagging1: Sea M el numero de predictores requeridos.2: d = {(x1,y1), . . . ,(xN ,yN)}3: for i = 1 hasta M do4: Generar una nueva muestra dbag, eligiendo N muestras des-
de d con reemplazo.5: Entrenar un estimador fi con la muestra dbag y agregarlo al
ensemble.6: end for7: Para cada patron de test x, la salida esta dada por: fbag(x) =
1M ∑i fi(x)
12 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Remuestreo en Ensemblados
Sea S la muestra de entrenamiento Si,u pero reemplazando eli-esimo ejemplo por un punto nuevo arbitrario u. Un algoritmose dice β-estable si
∀S,∀Si,u ∀x |fS(x)− fSi,u(x)| ≤ β (5)
Donde fD es la funcion obtenida entrenando el algoritmo conla muestra D.
Un algoritmo se dice fuertemente β-estable si β = O(1/l)donde l es el tamano de la muestra S.
13 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Remuestreo en Ensamblados(2)
Supongamos que la muestra original esta dividida en nconjuntos distintos de tamano p para generar cada uno de losn miembros del ensamblado. Si cada algoritmo base esβ-estable, el ensemble es fuertemente β-estable conβbagg = pβ/l.
En bagging, la probabilidad de que un patron aparezca en lamuestra de entrenamiento es exactamente (1−1/l)l lo queconverge a ∼ 0,632 cuando l→ ∞.
De esta forma, Bagging puede mejorar la capacidad degeneralizacion robustificando un algoritmo de aprendizaje enprincipio inestable.
14 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Remuestreo en Ensamblados(3)
Todo problema caracterizado por Z = (X,Y), consta depuntos que lo caracterizan, estos datos son denominadosLeverage Points, o puntos palanca o de influencia. Estainfluencia puede ser positiva, o negativa, como en el caso delos outliers.
Leverage points usualmente se encuentran aislados en elespacio de caracterısticas mientras que los no-leveragepoints actuan en grupos - lo cual es consistentes con losconceptos de estabilidad que introdujimos anteriormente.
La probabilidad de que un grupo de tamano k secompletamente ignorada por la muestra bagging es (1−k/l)l
el cual decae exponencialmente con k.
Por ejemplo, para k = 2, (1− k/l)l ∼ 0,14 mientras que parak = 1, (1−1/l)l ∼ 0,37.
15 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Temario
1 Introduccion
2 Bagging
3 Stacking Generalization y Bumping
4 Boosting
5 Diversidad en Ensemble
16 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Stacking generalization
Separemos la data en J conjuntos disjuntos y definamos Lj yL−j como el conjunto de test y de entrenamientorespectivamente dado por el conjunto j-esimo del J-foldcross-validation.
Dado el k-esimo algoritmo de entrenamiento, se entrena elk-esimo predictor con el conjunto de entrenamiento L−j,resultando los modelo M−j
k ,k = 1,2, . . . ,K llamados modelosnivel-0.
Para cada instancia x ∈ L−j, sea v−jk (x), la prediccion de x
que hace el modelo M−jk
17 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Stacking generalization (2)
Sea zkn = M−jk (xn)
La data generada por los modelos nivel-0 sera
LCV = {yn,z1n,z2n, . . .zkn},n = 1,2, . . . ,N
LCV se conoce como data nivel 1.
Utilizaremos un modelo generalizador M, llamadogeneralizador nivel-1.
Para clasificar una instancia x, cada modelo Mk lo predice,generando el vector (y,z1,z2, . . . ,zk), este vector ingresa enel modelo nivel 1 M
18 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Stacking generalization (3)
El modelo de stacking esta dado por
wst = argminw
N
∑i=1
[yi−
M
∑m=1
wm f−im (xi)
]2
(6)
Mejores resultados se obtienen con pesos no negativos, ycon suma 1
Sea P−jki (x), la probabilidad de la i-esima clase, y sea
zkin = P−jki (xn).
Entonces L′CV ={yn,z11n, . . . ,z1cn, . . . ,zk1n, . . . ,zkcn, . . . ,zK1n, . . . ,zKcn},n =1,2, . . . ,N
Para esto, en el nivel 1, se utiliza el modelo M′ sobre la dataanterior.
19 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Bumping
Bagging promedia la prediccion sobre una coleccion demuestras bootstrap.
Bumping no promedia las predicciones, sino que elige elmejor modelo es decir, b = argminb ∑
Ni=1 [yi− f ∗b(xi)]2.
Bumping trata de encontrar un modelo en una buena area delespacio caracterıstico.
20 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Temario
1 Introduccion
2 Bagging
3 Stacking Generalization y Bumping
4 Boosting
5 Diversidad en Ensemble
21 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Boosting
Es una de las tecnicas de aprendizaje mas poderosas de losultimos anos. Fue disenado originalmente para problemas declasificacion, pero puede ser extendido tambien a regresion.
Boosting es un metodo que busca combinar clasificadores“debiles” para formar un poderoso comite.
La version mas popular es AdaBoost.M1 creada por Freund ySchaphire.
Consideremos un problema de dos clases con valores{−1,1}. El error de la muestra es
err =1N
N
∑i=1
I(yi 6= G(xi))
El error esperado en las futuras predicciones esEXY [I(yi 6= G(xi))].
22 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Boosting (2)
Un clasificador debil es uno que obtiene un error un pocomejor que realizar una prediccion aleatoria.
La idea de Boosting es aplicar algoritmos de clasificaciondebiles repetidamente a versiones modificadas de la dataoriginal, produciendo una secuencia de clasificadores debilesGm(x),m = 1,2, . . . ,M.
Las predicciones de todos los clasificadores se combinanmediante mayorıa de votos con peso:
G(x) = sign
(M
∑m=1
αmGm(x)
)(7)
23 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Boosting (3)
α1,α2, . . . ,αM son computadas por boosting y representa lacontribucion de cada Gm(x)En la practica los modelos mas precisos estaran masinvolucrados en la prediccion.
Las modificaciones en la muestra, consisten en aplicar pesosw1,w2, . . . ,wN a cada observacion (xi,yi), i = 1,2, . . . ,N.
Inicialmente wi = 1/N, y en el primer paso se entrena la datade manera usual.
Para cada iteracion m = 2,3, . . . ,M los pesos de cadaobservacion son modificados y se genera una nueva datacon dichos pesos.
En el paso m los datos mal clasificados por Gm−1 tendranmayor peso y los clasificados correctamente tendran menorpeso.
24 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Esquema Boosting
25 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Boosting (4)
Algoritmo 2 Boosting Generico1: Sea M el numero de predictores requeridos y t = {(x1,y1), . . . ,(xn,yn)}.2: Inicializar la distribucion de la muestra Wi = 1/N, i = 1,2, . . . ,N3: for m = 1 TO M do4: Entrenar un clasificador Gm(x) para entrenar la data usando los pesos wi5: Computar
errm =∑
Ni=1 wiI(yi 6= Gm(xi))
∑Ni=1 wi
6: Computar αm = log(1− errm)/errm7: Hacer wi← wi expαmI(yi 6= G(xi)), i = 1,2, . . . ,N8: end for9: Salida G(x) = sign
[∑
Mm=1 αmGm(x)
]
26 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Comparando Boosting
27 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Boosting aproxima un modelo aditivo
Boosting es una forma de escribir un modelo de funcionesbasales
f (x) =M
∑m=1
βmb(x;γm) (8)
donde βm,m = 1,2, . . . ,M son los coeficientes de laexpansion y b(x,γ) ∈R son funciones simples de un vectormultivariado x, caracterizado por un conjunto de parametrosγ.
28 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Boosting aproxima un modelo aditivo (2)
Este tipo de modelo minimizan
mın{βm,γm}M
1
L
(yi,
M
∑m=1
βmb(x;γm)
)(9)
Para resolverlo se requiere de tecnicas de optimizacion degran esfuerzo computacional, sin embargo, esto puede serresuelto ajustando una sola funcion base.
mınβ,γ
L(yi,βb(x;γ)) (10)
29 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Forward Stagewise
Esta tecnica aproxima la solucion de la ecuacion (9) alagregar secuencialmente nuevas funciones basales a laexpansion, sin ajustar los parametros y coeficientes que yase encuentran agregados.
En cada iteracion m se trabaja con la funcion base b(x;γm) yel coeficiente βm se agrega a la expansion anterior fm−1(x),generando fm(x), sin modificar los terminos previamenteagregados.
30 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Forward Stagewise (2)
Usando la funcion de perdida cuadratica
L(y, f (x)) = (y− f (x))2 (11)
Se tiene que
L(yi, fm−1(xi)+βb(x;γ)) = (yi− fm−1(xi)−βb(x;γ))2
= (rim−βb(x;γ))2 (12)
Donde rim = yi− fm−1(xi) es el error residual en la i-esimaobservacion. Por lo tanto, en cada paso se agrega a laexpansion el βmb(x;γm) que mejor modela el residuo.
31 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Forward Stagewise (3)
Algoritmo 3 Forward Stagewise1: Inicializar f0(x) = 02: for m = 1 TO M do3: Computar (βm,γm) = argminβ,γ ∑
Ni=1 L(yi, fm−1(xi)+βb(x;γ))
4: Hacer fm(x) = fm−1(x)+βmb(x;γm)5: end for
32 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
AdaBoost y la perdida exponencial
Adaboost es equivalente a usar la tecnica Forward Stagewisecon la funcion de perdida
L(y, f (x)) = exp(−yf (x)) (13)
Las funciones basales son los clasificadores debilesGm(x) ∈ {−1,1}.Por lo tanto, debemos resolver
(βm,γm) = argminβ,γ
N
∑i=1
exp [−yi(fm−1(xi)+βG(x))] (14)
33 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
AdaBoost y la perdida exponencial (2)
La ecuacion anterior puede expresarse como
(βm,γm) = argminβ,γ
N
∑i=1
w(m)i exp(−βyiG(xi)) (15)
donde w(m)i = exp(yifm−1(x)).
Observemos que no depende de β ni G(x), pero si dependede fm−1, por lo tanto en cada iteracion puede tomar un valordiferente.La solucion de la ecuacion (15) se puede obtener en dospasos.Primero para cualquier β > 0, la solucion de (15) para Gm(x)es
Gm = argminG
N
∑i=1
w(m)i I(yi 6= G(xi)) (16)
Este clasificador minimiza el error en la prediccion de y34 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
AdaBoost y la perdida exponencial (3)
Esto puede expresarse como
e−β∑
yi=G(xi)w(m)
i + eβ∑
yi 6=G(xi)w(m)
i
Y tambien como
(eβ− e−β)N
∑i=1
w(m)i I(yi 6= G(xi))+ e−β
N
∑i=1
w(m)i (17)
35 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
AdaBoost y la perdida exponencial (3)
Colocando el resultado anterior en la ecuacion (15) yresolviendo para β obtenemos
βm =12
log1− errm
errm(18)
donde
errm =∑
Ni=1 w(m)
i I(yi 6= G(xi))
∑Ni=1 w(m)
i
(19)
La aproximacion se actualiza
fm(x) = fm−1(x)+βmGm(x)
Lo que provoca que los pesos en la proxima iteracion seran
w(m+1)i = w(m)
i e−βmyiGm(xi) (20)
36 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
AdaBoost y la perdida exponencial (3)
Usando el hecho de que yiGm(xi) = 2I(yi 6= G(xi))−1, laecuacion anterior se transforma en
w(m+1)i = w(m)
i eαmI(yi 6=Gm(xi))e−βm (21)
Donde αm = 2βm es la cantidad definida en AdaBoost.M1.
El factor e−βm
37 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
. . . Comparacion
Resultados empıricos en clasificacion y regresion ,hanmostrado que Boosting tiene mejor desempeno que Baggingaunque es mas sensible al ruido (presencia de outliers) , y esfacil que se produzca sobre-entrenamiento, es decir, que seajuste demasiado al conjunto de entrenamiento.
38 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Temario
1 Introduccion
2 Bagging
3 Stacking Generalization y Bumping
4 Boosting
5 Diversidad en Ensemble
39 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Diversidad Implıcita y Explıcita
Al momento de construir el ensemble podemos intentar medirla diversidad, y optimizar parametros de diversidad durante laconstruccion del ensemble esto se conoce como Metodo dediversidad explıcita
metodo de diversidad implıcita. Ej. Bagging.
Durante el aprendizaje, una funcion de aproximacion sigueuna trayectoria dentro del espacio de hipotesis. Serıa logicopensar que un mejor ensemble serıa el que cubra una mayorcantidad de puntos dentro del espacio de hipotesis.
40 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Categorıas de Diversidad en Ensemble
Existen tres categorıas en los que un Ensemble puede serubicado:
Punto de partida en el espacio de hipotesis.
Conjunto de hipotesis accesibles.
Espacio de hipotesis transversal.
41 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Punto de partida en el espacio de hipotesis
Estos metodos varıan los puntos de partida dentro delespacio de busqueda, al comenzar cada red con diferentespesos iniciales, se incrementara la probabilidad de que cadared tome una diferente trayectoria. Este es el mas comun delos metodos para generar ensembles
42 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Conjunto de hipotesis accesibles
Estos metodos varıan el conjunto de hipotesis accesible porel ensemble para lograrlo varıan los conjuntos deentrenamiento o la arquitectura de las redes que componenel Ensemble.
Alterando el Conjunto de Entrenamiento, es el tipo de metodomas estudiado para generar Ensembles, y lo hacen variandoligeramente el conjunto de entrenamiento para cada redindividual.
Otra alternativa es darle a los datos diferente representacion,por ejemplo, utilizar una escala logarıtmica
Alterando la Arquitectura de la red
43 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Espacio de hipotesis tranversal
Alteran la forma de viajar dentro del espacio de busqueda,llevando a cada miembro del ensemble a converger a diversashipotesis.
44 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Metodos de Regularizacion
Este tipo de metodos se basan en agregar un factor depenalizacion en la funcion del error.
Tikhonov prueba que al agregar un termino en la funcion delerror, agregado a la funcion objetivo, se puede controlar eldilema sesgo-varianza.
Usando esto, el error de la red i-esima es:
ei =12(fi− y)2 +λR (22)
donde λ es el peso sobre el termino de regularizacion R. Elparametro λ controla el equilibrio entre el errorbackpropagation clasico y el termino de regularizacion.
45 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Metodos Evolutivos
En los algoritmos evolutivos, la diversidad significa explorarlargamente el espacio de busqueda, con el objetivo deencontrar el mejor individuo, creando una poblacion que escomplementaria, pero que asegura maximizar la busquedadentro del espacio de hipotesis.
46 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Diversidad en Ensemble
Una forma de introducir diversidad en un Ensemble de Maquinases la Descomposicion Ambigua:Krog y Vedelsby, prueban que para una entrada, el errorcuadratico medio del estimador del Ensemble es menor o igual, alpromedio del error cuadratico de los componentes del estimador:
(fens− y)2 = ∑i
wi(fi− y)2−∑i
wi(fi− fens)2 (23)
Donde fens es la combinacion convexa de los estimadores:
fens = ∑i
wifi (24)
47 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
. . . Descomposicion Ambigua
∑i
wi(fi− y)2, es el promedio con pesos del error de cada
predictor individual.
∑i
wi(fi− fens)2 es el termino ambiguo, mide la variabilidad
entre las respuestas del ensemble para ese patron.
La Descomposicion Ambigua nos garantiza que el error delensemble es menor al promedio de los errores de cadapredictor individual.
Un valor grande del termino ambiguo, reducirıa el error delensemble, sin embargo la variabilidad crece, aumentandoası el valor del primer termino.
48 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Sesgo y Varianza
La perdida cuadratica puede ser descompuesta en dos partes:sesgo y varianza. Estos dos componentes trabajan en oposicion,es decir, si reducimos el sesgo aumenta la varianza y viceversa.
ED{(f − y)2} = ED{(f −ED{f}+ED{f}− y)2}= ED{[(f −ED{f})+(ED{f}− y)]2}= ED{[(f −ED{f})2 +(ED{f}− y)2}−2(f −ED{f})(ED{f}− y)]2
= ED{[(f −ED{f})2}+(ED{f}− y)2
MSE(f ) = var(f )+ sesgo(f )2 (25)
49 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
Sesgo Varianza y Covarianza
Si un ensemble esta formado por un combinacion convexa depesos fens = f , la varianza se descompone, y obtenemos unadescomposicion sesgo-varianza-covarianza para el errorcuadratico medio del estimador f del Ensemble es:
E{(f − y)2}= bias2 +
1M
var +(
1− 1M
)covar (26)
50 / 52
“EnsembleLearning”
Carlos ValleVidal
Introduccion
Bagging
Stacking
Boosting
Diversidad enEnsemble
. . . Sesgo Varianza y Covarianza
sesgo, es el promedio del sesgo de los componentes delensemble:
sesgo =1M ∑
i(Ei{fi}− y) (27)
var , corresponde al promedio de la varianza de los componentesdel ensemble:
var =1M ∑
iEi{(fi−Ei{fi})2} (28)
covar, corresponde al promedio de la covarianza de los miembrosdel ensemble:
covar =1
M(M−1) ∑i
∑j6=i
Ei,j{(fi−Ei{fi})(fj−Ej{fj}} (29)
51 / 52