pattern classificationpattern classification all materials in these slides were taken from pattern...

60
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors and the publisher

Upload: others

Post on 02-Aug-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Pattern

Classification

All materials in these slides were taken

from

Pattern Classification (2nd ed) by R. O.

Duda, P. E. Hart and D. G. Stork, John

Wiley & Sons, 2000

with the permission of the authors and

the publisher

Page 2: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

3.9 Bayesian Belief networks

Los metodos descriptos hasta el momento

suponen que las distribuciones por clase pueden

ser parametrizadas por un vector θ

Si existe algun conocimiento acerca de θ tambien

pudo ser usado

A veces, existe informacion sobre las

dependencias entre las componentes del vector

de caracteristicas

Estas relaciones pueden representarse

gráficamente como redes bayesianas.

2

Page 3: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Red Bayesiana

Una red bayesiana consiste de nodos (mayusculas) y sus

estados asociados (minusculas). Por lo cual nodo A tiene

estados a1,a2,... y nodo B tiene estados b1,b2,…P(c|a) puede

ser una matriz con entradas P(ci|ai)

A B

D

CG

F

E

P(a) P(b)

P(c|a)P(c|d)

P(d|b)

P(e|c)

P(f|e)P(g|f)

P(g|e)

Page 4: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Definicion: grafo dirigido acíclico conexo, más una

distribución de probabilidad sobre sus variables

Page 5: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian
Page 6: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Tipos de conexiones

a

b

ab

ca

c

b

c

Linear

Converging Diverging

Edad

Estatura

No.

Calzado

Edad

Estatura Ingreso

Edad

Estatura

No.

Calzado

IndependientesIndependientes

Dependientes dado E

Page 7: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Doctor's Note

Student Ill

Frequent Absence

Student Disinterested

Computer Crash

Paper Late

Dog Ate It

“Dog Ate It”

Power Failure

Clocks Slow

Lives in Dorm

Hungry Dog

“Computer Crash”

Make up Excuse

Page 8: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Clasificacion del mero y el

salmon

A representa estación, con cuatro valores

equiprobables a1=invierno, a2=primavera,

a3=verano, a4=otoño

El nodo B representa el area geografica donde el

pez ha sido capturado.: b1=Atlantico norte, b2

Atlantico Sur, y son equiprobables.

A y B son padres del nodo X, el cual representa

el pez capturado, y tiene dos posibles valores,

salmon o mero.

Los nodos hijos representan lightness, C, con

c1=claro, c2=medio, c3=oscuro, asi como D

representa la grosor, con d1=grueso y d2=fino.8

Page 9: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Red Bayesiana para el problema

del salmon

9

A B

X

C

Estacion

Area

geografica

lightness Grosor

Pez

D

P(x|a)

P(x|b)

P(c|x)P(d|x)

x1=salmon

x2=mero

b1=atlantico norte

b2=atlantico sura1=invierno

a2=primavera

a3=verano

a4=otoño

a1=claro

a2=medio

c3=oscuro

d1=grueso

d2=fino

Page 10: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

La estacion y el area geografica de pesca no dependen

del pez, pero si dependen las variables lightness y grosor.

P(aj) =0.25, P(bj)=0.5

Un experto genera las siguientes probabilidades:

10

P(xi|aj) salmon mero

Invierno .9 .1

Primavera .3 .7

Verano .4 .6

Otoño .8 .2

P(xi|bj) salmon mero

Norte .65 .35

Primavera .95 .05

Page 11: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

El experto tambien genera probabilidades condicionales

para los eventos conjuntos y las variables hijos

11

P(x1|aibj ) Norte Sur

Invierno .9 .8

Primavera .3 .2

Verano .4 .1

Otoño .7 .6

P(ci|xj) salmon mero

Claro .33 .8

Medio .33 .1

Oscuro .34 .1

P(di|xj) salmon mero

grueso .4 .95

fino .6 .05

Page 12: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Verifiquemos que sin evidencia

P(x1)=P(x2)

12

5.0

]6.01.02.08.07.04.03.09.0)[5.0)(25.0(

),|()5.0)(25.0(

),|()()(

)|()|(),|()()(

),,,,()(

,

1

,

1

,,,

111

,,,

11

ji

ji

ji

jiji

lkji

lkjiji

lkji

lkji

baxP

baxPbPaP

xdPxcPbaxPbPaP

dcbaxPxP

Page 13: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Evidencia en el pez

Recolectemos la evidencia, {eA, eB, eC, eD}, asumiendo que

son independientes unos de los otros .

Supongamos que es invierno, i.e., P(a1|eA) = 1 y P(ai|eA) =

0 for i = 2, 3, 4.

Supongamos que no sabemos de que area vino el bote,

pero que una cierta tripulacion le gusta pescar al sur ; por

lo cual asumimos que P(b1|eB) = 0.2 y P(b2|eB) = 0.8.

Medimos el pez y encontramos que es liviano y decidimos

P(eC|c1) = 1, P(eC|c2) = 0.5, y P(eC|c3) = 0.

Supongamos que existe oclusion y que no podemos medir

el ancho del pez, por lo cual P(eD|d1) = P(eD|d2).

13

Page 14: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Padres e hijos

PP(x1) probabilidad de salmon producida por sus

padres

PC(x1) probabilidad de salmon producida por sus

hijos

14

)|()|(),|()|()|(),|(

)|()|(),|()|()|(),|(

)|()|(),|()|()|(),|(

)|()|(),|()|()|(),|(

)|()|(),|()|()|(),|(

)|()(

21211111

24241414

23231313

22221212

21211111

ebPeaPbaxPebPeaPbaxP

ebPeaPbaxPebPeaPbaxP

ebPeaPbaxPebPeaPbaxP

ebPeaPbaxPebPeaPbaxP

ebPeaPbaxPebPeaPbaxP

exPxP

ii

ii

ii

ii

ii

P

iiP

18.082.01)(,82.0)( 21 xPxP PP

Page 15: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Calculamos ahora PC(x1)

Un calculo similar da P(x2) ∝ 0.85.

P(xi|e) ∝ Pc(xi)PP(xi)

Renormalizando (i.e., dividiedo por su suma), resulta

15

495.0

)]6.0)(0.1()4.0(0.1[)]34(.0)33.0)(5.0(33.0)(0.1[(

)]|()|()|()|([

)]|()|()|()|()|()|([

)|()|()|()(

122111

333222111

1111

xdPdePxdPdeP

xcPcePxcPcePxcPceP

xePxePxePxP

DD

CCC

DC

c

c

274.0)85.0)(18.0()495.0)(82.0(

)85.0)(18.0()|(

726.0)85.0)(18.0()495.0)(82.0(

)495.0)(82.0()|(

2

1

exP

exP

Page 16: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Respuesta al ejemplo

Dada toda la evidencia recolectada en la red, el

resultado mas probable es x1=salmon

Con esta red se pueden dar distintas respuestas,

sobre otras variables presentes en la red.

16

Page 17: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Dependencias desconocidas

Cuando las dependencias son desconocidas,

podemos suponer la menor de las hipótesis, la

independencia condicional dada la categoria

Este es la llamada regla naïve de bayes, que a

menudo tiene mucho exito en la practica, y que

puede se expresada como una red muy simple.

17

d

i

kk xpxp1

)|()|(

Page 18: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Procesos estocásticos

Un sistema informático complejo se caracteriza

por demandas de carácter aleatorio y por ser

dinámico

Necesitamos una herramienta que modele

procesos aleatorios en el tiempo, y para ello

usaremos los procesos estocásticos

Un proceso estocástico es una familia de

variables aleatorias parametrizadas por el tiempo

18

Page 19: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Procesos estocásticos

Un proceso estocástico es una familia de

variables aleatorias definida sobre un espacio

de probabilidad. Es decir:

TtX t ,:

tXX t ,

19

Page 20: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Procesos estocásticos

Tendremos que X es una función de dos

argumentos. Fijado =0, obtenemos una

función determinística (no aleatoria), llamada

trayectoria:

TX :, 0

0,tXt

20

Page 21: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Procesos estocásticos

Asimismo, fijado t=t0, obtenemos una de

las variables aleatorias de la familia:

:,0tX

,0tX

21

Page 22: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Procesos estocásticos

El espacio de estados S de un proceso

estocástico es el conjunto de todos los posibles

valores que puede tomar dicho proceso:

TtXS t |

22

Page 23: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo de proceso estocástico

Lanzamos una moneda al aire 6 veces. El

jugador gana 1 peso cada vez que sale cara (C),

y pierde 1 peso cada vez que sale sello (F).

Xi = estado de cuentas del jugador después de la

i-ésima jugada

La familia de variables aleatorias {X1, X2,…, X6}

constituye un proceso estocástico

23

Page 24: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo de proceso estocástico

={CCCCCC,CCCCCF,…}

card() = 26 = 64

P()=1/64

T={1, 2, 3, 4, 5, 6}

S={–6, –5, …, –1, 0, 1, 2, …, 5, 6}

X1()={–1, 1}

X2()={–2, 0, 2}

24

Page 25: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo de proceso estocástico

Si fijo ω, por ejemplo 0=CCFFFC, obtengo una

secuencia de valores completamente determinista:

X1(0)=1, X2(0)=2, X3(0)=1, X4(0)=0, X5(0)= –

1, X6(0)=0

Puedo dibujar con estos valores la trayectoria del

proceso:

25

Page 26: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo de proceso estocástico

-2

-1

0

1

2

3

1 2 3 4 5 6

Instante de tiempo, t

Valo

r d

el

pro

ceso

26

Page 27: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo de proceso estocástico

Si fijo t, por ejemplo t0=3, obtengo una de las

variables aleatorias del proceso:

:3X

3X

Los posibles valores que puede tomar el

proceso en t0=3 son: X3()={–3, –1, 1, 3}

27

Page 28: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo de proceso estocástico

Podemos hallar la probabilidad de que el

proceso tome uno de estos valores:

8

3

2

1

2

1

2

13FCCPCCFP CFCP 1)(XP 3

8

1

2

1

2

1

2

1CCCP 3)(XP 3

8

3

2

1

2

1

2

13CFFPFFCP FCFP 1)(XP 3

8

1

2

1

2

1

2

1FFFP 3)(XP 3

28

Page 29: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Clasificación de los procesos

estocásticos

S discreto S continuo

T discreto Cadena

Sucesión de

variables

aleatorias

continuas

T continuo Proceso puntual Proceso continuo

29

Page 30: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplos de los tipos de procesos

estocásticos

Cadena: Ejemplo anterior

Sucesión de variables aleatorias continuas: cantidad

de lluvia caída cada mes

Proceso puntual: Número de clientes esperando en

la cola de un supermercado

Proceso continuo: velocidad del viento

30

Page 31: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Cadenas de Markov Las cadenas de Markov y los procesos de

Markov son un tipo especial de procesos estocásticos que poseen la siguiente propiedad:

Propiedad de Markov: Conocido el estado del proceso en un momento dado, su comportamiento futuro no depende del pasado. Dicho de otro modo, “dado el presente, el futuro es independiente del pasado”

31

Page 32: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Cadenas de Markov

Sólo estudiaremos las cadenas de Markov,

con lo cual tendremos espacios de estados S

discretos y conjuntos de instantes de tiempo T

también discretos, T={t0, t1, t2,…}

Una cadena de Markov (CM) es una sucesión

de variables aleatorias Xi, iN, tal que:

t

t

t

t

XjX

PXXX

jXP 1

10

1

,...,,

que es la expresión algebraica de la propiedad

de Markov para T discreto.

32

Page 33: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Probabilidades de transición

Las CM están completamente caracterizadas por las probabilidades de transición en una etapa,

TtSjiiX

jXP

t

t

,,,1

ijt

t qiX

jXPTtSji

1,,

Sólo trabajaremos con CM homogéneas en el

tiempo, que son aquellas en las que

donde qij se llama probabilidad de transición en

una etapa desde el estado i hasta el estado j33

Page 34: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Matriz de transición

Los qij se agrupan en la denominada matriz de

transición de la CM:

Sjiijq

qqq

qqq

qqq

Q

,

222120

121110

020100

............

...

...

...

34

Page 35: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Propiedades de la matriz de

transición

Por ser los qij probabilidades,

1,0,, ijqSji

1, Sj

ijqSi

Por ser 1 la probabilidad del suceso seguro,

cada fila ha de sumar 1, es decir,

Una matriz que cumpla estas dos propiedades

se llama matriz estocástica

35

Page 36: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Diagrama de transición de estados

El diagrama de transición de estados (DTE) de una

CM es un grafo dirigido cuyos nodos son los estados

de la CM y cuyos arcos se etiquetan con la

probabilidad de transición entre los estados que

unen. Si dicha probabilidad es nula, no se pone

arco.

i jqij

36

Page 37: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo: línea telefónica

Sea una línea telefónica de estados ocupado=1 y

desocupado=0.

Si en el instante t está ocupada, en el instante

t+1 estará ocupada con probabilidad 0,7 y

desocupada con probabilidad 0,3.

Si en el instante t está desocupada, en el t+1

estará ocupada con probabilidad 0,1 y

desocupada con probabilidad 0,9.

37

Page 38: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo: línea telefónica

7,03,0

1,09,0Q

0 10,9

0,1

0,3

0,7

38

Page 39: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo: buffer de E/S Supongamos que un buffer de E/S tiene espacio para

M paquetes. En cualquier instante de tiempo podemos insertar un

paquete en el buffer con probabilidad o bien el bufferpuede vaciarse con probabilidad . Si ambos casos se dan en el mismo instante, primero se inserta y luego se vacía.

Sea Xt=nº de paquetes en el buffer en el instante t.

Suponiendo que las inserciones y vaciados son independientes entre sí e independientes de la historia pasada, { Xt } es una CM, donde S={0, 1, 2, …, M}

39

Page 40: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo: buffer de E/S

0 1 2 3(1–) (1–) (1–)

1–(1–) – 1–(1–) –) 1–(1–) –)

1–(1–)

… M

1–(1–)

40

Page 41: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo: Lanzamiento de un dado

Se lanza un dado repetidas veces. Cada vez que

sale menor que 5 se pierde 1 peso, y cada vez que

sale 5 ó 6 se gana 1 peso. El juego acaba cuando

se tienen 0 peso ó 100 pesos.

Sea Xt=estado de cuentas en el instante t. Tenemos

que { Xt } es una CM

S={0, 1, 2, …, 100}

41

Page 42: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo: Lanzamiento de un dado

0 1 2 32/3

1

4 5…

2/32/32/32/3 2/3

1/3 1/3 1/3 1/3

100999897

1

2/3 2/3

1/31/3

2/3

1/3

1/3

1/3…

42

Page 43: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo: organismos unicelulares

Se tiene una población de organismos unicelulares que evoluciona así: cada organismo se duplica con probabilidad 1–p o

muere con probabilidad p.

Sea Xn el nº de organismos en el instante n. La CM { Xn } tendrá S = { 0, 1, 2, 3, … } = N

Si hay i organismos en el instante n, en el instante n+1 tendremos k organismos que se dupliquen e i–k que mueran, con lo que habrá 2k organismos.

43

Page 44: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo: organismos unicelulares

Mediante la distribución binomial podemos hallar

las probabilidades de transición qi,2k (el resto de

probabilidades son nulas):

kik

ki ppk

iqik

1,,...,2,1,0 2,

44

Page 45: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Hidden Markov models Belief nets son una forma muy poderosa de

representar dependencias

Si las dependencias tienen temporalidad, es decir se observa un proceso que se desarrolla en el tiempo, pueden observarse estados que estan muyinfluenciados por el estado anterior

A pesar de que generan modelos mas complejos, lasmismas ideas reaparecen

HMM tienen una cantidad de parametros cuyosvalores explican los patrones de cada categoria.

Luego, un nuevo patron puede ser clasificado por el modelo por el estado que mejor explica el patron.

Page 46: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Definición de un modelo oculto de Markov

Una Cadena de Markov Oculta es un proceso binario (doblemente estocástico) compuesto de

una cadena de Markov homogénea con espacio de estados finito

un proceso estocástico cuya distribución condicional solo depende de la cadena anterior

En cualquier estado particular, la observación puede ser generada,

de acuerdo a la distribución de probabilidades de emisión.

Sólo el resultado observable, no el estado, es visible a un

observador externo por lo que los estados están “ocultos”.

Las transiciones entre estados “ocultos”están dadas por un

conjunto de probabilidades de transición.

Page 47: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

El humor del cocinero

Supongamos que la comida que sirve el comedor

es usualmente catalogada como buena regular o

mala.

Supongamos que la comida servida depende del

humor del cocinero, que puede ser bueno o malo.

Solo se observa la calidad de la comida, el humor

del cocinero esta “oculto”.

47

Page 48: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Lo oculto es lo que interesa

Supongamos entonces que estamos tratando de

modelar clases visibles en secuencia, por ejemplo,

recorriendo una imagen de izquierda a derecha, como

un vector, observamos las etiquetas de tres clases,

hueso, fondo y cartilago, y nos on independientes

Si estamos viendo cartilago, lo veremos varios pixeles seguidos

Si estamos viendo fondo, lo veremos mas veces en forma

continua

Si estamos viendo hueso, se ve menos veces que el fondo,

peor mas que el cartilago

48

Page 49: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Imagen con cuatro clases ocultas

49

Page 50: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Cadena Oculta es Markoviana

Vamos a denotar el proceso oculto por ω(t), una

sucesion particular de largo T se denota por

El modelo considera probabilidades de transicion

entre los estados

Las probabilidades de transicion son

independientes del tiempo y no nulas solo a un

paso

50

)(),...,2(),1( TT

))(|)1(( ttPa ijij

Page 51: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

5110

Page 52: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Proceso visible: necesitamos

ayuda!! La interaccion de los estados visibles con los

estados ocultos esta dada por

Hay tres problemas importantes relacionados con estemodelo

Problema de Evaluacion

Problema de decodificacion

Problema de aprendizaje

52

))(|)(( ttvPb ijij

)(tv j

)(ti

Page 53: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

53

Page 54: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Problema de evaluacion

Calcular la probabilidad de que el modelo produzca la

secuencia VT de estados visibles. Esto es:

donde cada r indexa una secuencia particular de T

estados ocutos

54

)(P)|V(P)V(PT

r

r

1r

T

r

TTmax

)T(),...,2(),1(T

r

Tt

1t

T

r

Tt

1t

T

r

T

))1t(|)t((P)P( (2)

))t(|)t(v(P)|V(P )1(

Page 55: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

55

Usando las ecuaciones (1) and (2), se puede escribir:

Interpretacion:

La probabilidad de que se observe una secuencia particular de T estados visibles, VT es igual a la suma sobre todos lasrmax posibles secuencias de estados ocultos, de lasprobabilidades condicionales de que el sistema hayarealizado esa transicion particular, multiplicada por la probabilidad de que haya emitido el estado visible de la secuencia observada

maxr

1r

Tt

1t

T)1t(|)t((P ))t(|)t(v(P)V(P

Page 56: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Ejemplo:

Sea1, 2, 3 los estados ocultos; v1, v2, v3 los estadosvisibles y V3 = {v1, v2, v3} las secuencias de estadosvisibles

P({v1, v2, v3}) = P(1).P(v1 | 1).P(2 | 1).P(v2 | 2).P(3 | 2).P(v3 |3)

+…+ (terminos posibles en la suma= todos los posibles(33= 27) cases !)

56

Page 57: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

57

Primera posibilidad:

Segunda posibilidad:

P({v1, v2, v3}) = P(2).P(v1 | 2).P(3 | 2).P(v2 | 3).P(1 | 3).P(v3 | 1) + …+

Por lo cual:

posibles sequencias

3

1

321 ))1(|)(()).(|)((}),,({t

t

ttPttvPvvvP

1

(t = 1)2

(t = 2)

3

(t = 3)

v1 v2 v3

2

(t = 1)

1

(t = 3)

3

(t = 2)

v3v2v1

Page 58: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Problema de decodificacion: secuencia

optimaDada una secuencia de estados visibles VT, el problema de

decodificacion es encontrar la secuencia mas probable de

estados ocultos .

58

|)(),...,2(),1(),(),...,2(),1(maxarg)(ˆ),...,2(ˆ),1(ˆ

:ue al )(ˆ),...,2(ˆ),1(ˆ

)(),...,2(),1(

TVvvTPT

qtTEncontrar

T

Notemos que la sumatoria desaparecio, siendo que queremos

encontrar un unico caso

Page 59: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

59

Si el modelo se escribe como: = [,A,B]

= P((1) = ) (Probabilidades iniciales de los estados)

A = aij = P((t+1) = j | (t) = i) (transiciones ocultas)

B = bjk = P(v(t) = k | (t) = j) (relaciones condicionales)

En el ejemplo anterior el computo corresponde a la seleccion del mejor

camino entre los siguientes:

{1(t = 1),2(t = 2),3(t = 3)}, {2(t = 1),3(t = 2),1(t = 3)}

{3(t = 1),1(t = 2),2(t = 3)}, {3(t = 1),2(t = 2),1(t = 3)}

{2(t = 1),1(t = 2),3(t = 3)}

Page 60: Pattern ClassificationPattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John3.9 Bayesian

Problema de aprendizaje

El tercer problema consiste en determinar el metodo de ajustar los parametros del modelo = [,A,B] quesatisface un problema de optimizacion. Se busca el mejor modelo

que maximice la probabilidad de observar la secuencia

Se usan procedimientos iterativos para obtener la optimizacion

60

]B,A,ˆ[ˆ

)|V(PMaxT