probabilistic inference lecture 6 – part 2

Probabilistic InferenceLecture 6 – Part 2

M. Pawan Kumarpawan.kumar@ecp.fr

Slides available online http://cvc.centrale-ponts.fr/personnel/pawan/

A is conditionally independent of B given C if

there is no path from A to B when C is removed

Va is conditionally independent of Vb given Va’s neighbors

Pairwise MRF

Z is known as the partition function

UnaryPotentialψ1(v1,d1)

PairwisePotentialψ56(v5,v6)

Probability P(v,d) =Πa ψa(va,da) Π(a,b) ψab(va,vb)

Inference

maxv P(v) Maximum a Posteriori (MAP) Estimation

minv Q(v) Energy Minimization

P(va = li) = Σv P(v)δ(va = li)

Computing Marginals

P(va = li, vb = lk) = Σv P(v)δ(va = li)δ(vb = lk)

P(v) = exp(-Q(v))/Z

Outline

• Belief Propagation on Chains

• Belief Propagation on Trees

• Loopy Belief Propagation

Overview

Va Vb Vc Vd

Compute the marginal probability for Vd

P(v) = P(va|vb)P(vb|vc)P(vc|vd)P(vd)

Compute (unnormalized) distribution

Ψa(va)Ψab(va,vb)Σva

Function m(vb)

Overview

Va Vb Vc Vd

Ψb(vb)Ψbc(vb,vc)m(vb)Σvb

Function m(vc)

Overview

Va Vb Vc Vd

Ψc(vc)Ψcd(vc,vd)m(vc)Σvc

(Unnormalized) Marginals !!

Overview

Va Vb Vc Vd

Compute the marginal probability for Vc

P(v) = P(va|vb)P(vb|vc)P(vd|vc)P(vc)

Several common terms !!

Overview

Va Vb Vc Vd

Compute the marginal probability for Vb

P(v) = P(va|vb)P(vc|vb)P(vd|vc)P(vb)

Overview

Va Vb Vc Vd

Compute the marginal probability for Va

P(v) = P(va|vb)P(vc|vb)P(vd|vc)P(vb)

P(v) = P(vb|va)P(vc|vb)P(vd|vc)P(va)

Belief Propagation on Chains

Compute exact marginals

Avoids re-computing common terms

Two Variables

1Va Vb

Unary Potentials ψa(li)

Pairwise Potentials ψab(li,lk)

Two Variables

1Va Vb

Marginal Probability P(vb = lj) = Σi ψa(li)ψb(lj)ψab(li,lj)/Z

Two Variables

1Va Vb

Un-normalized

Marginal Probability P’(vb = lj) = Σi ψa(li)ψb(lj)ψab(li,lj)/Z

Two Variables

1Va Vb

Un-normalized

Marginal Probability P’(vb = lj) = Σi ψa(li)ψb(lj)ψab(li,lj)

Two Variables

1Va Vb

Un-normalized

Marginal Probability P’(vb = lj) = ψb(lj)Σi ψa(li)ψab(li,lj)

Two Variables

1Va Vb

Two Variables

1Va Vb

2 x 3 + 5 x 1 Mab;0

Two Variables

1Va Vb

+ 5 x 3 Mab;1

Two Variables11

Marginal Probability P’(vb = lj) = ψb(lj)Σi ψa(li)ψab(li,lj)

Two Variables11

Marginal Probability P’(vb = lj) = ψb(lj)Mab;j

P’(vb = l0) = 22 P’(vb = l1) = 68

Two Variables11

Marginal Probability P(vb = lj) = ψb(lj)Mab;j/Z

P’(vb = l0) = 22 P’(vb = l1) = 68

Z = Σj P’(vb = lj) = 90

Two Variables11

P(vb = l0) = 0.244… P(vb = l1) = 0.755…

= 90 O(h2)!!

Marginal Probability P(vb = lj) = ψb(lj)Mab;j/Z

Z = Σj P’(vb = lj)

Two Variables11

P(vb = l0) = 0.244… P(vb = l1) = 0.755…

O(h2)!!Same as brute-force

Three Variables

P’(vc = lk) Σj Σi ψa(li)ψb(lj)ψc(lk)ψab(li,lj)ψbc(lj,lk)

Three Variables

P’(vc = lk) ψc(lk)Σj Σi ψa(li)ψb(lj)ψab(li,lj)ψbc(lj,lk)

Three Variables

P’(vc = lk) ψc(lk)Σj ψb(lj)Σi ψa(li)ψab(li,lj)ψbc(lj,lk)

Three Variables

P’(vc = lk) ψc(lk)Σj ψb(lj)ψbc(lj,lk)Σi ψa(li)ψab(li,lj)

Three Variables

P’(vc = lk) ψc(lk)Σj ψb(lj)ψbc(lj,lk)Mab;j

17 Mbc;k

Three Variables

4 x 2 x 11

Three Variables

4 x 2 x 11+ 2 x 2 x 17

Three Variables

4 x 2 x 11+ 2 x 2 x 17

Three Variables

17 156Va Vb

11 146

Three Variables

P’(vc = lk) ψc(lk)Mbc;k

17 156Va Vb

NOTE: Mbc;k “includes” Mab;j

Three Variables

17 156Va Vb

P(vc = 0) = 0.35

P(vc = 1) = 0.65

Z = 156 x 3 + 146 x 6 = 1344

Three Variables

17 156Va Vb

O(nh2) Better than brute-force

Three Variables

17 156Va Vb

What about P(vb = lj)?

Three Variables

17 156Va Vb

P’(vb = lj) Σk Σi ψa(li)ψb(lj)ψc(lk)ψab(li,lj)ψbc(lj,lk)

Three Variables

17 156Va Vb

P’(vb = lj) ψb(lj)Σk Σi ψa(li)ψc(lk)ψab(li,lj)ψbc(lj,lk)

Three Variables

17 156Va Vb

P’(vb = lj) ψb(lj)Σk ψc(lk)Σi ψa(li)ψab(li,lj)ψbc(lj,lk)

Three Variables

17 156Va Vb

P’(vb = lj) ψb(lj)Σk ψc(lk)ψbc(lj,lk)Σi ψa(li)ψab(li,lj)

Three Variables

17 156Va Vb

P’(vb = lj) ψb(lj)Mab;jΣk ψc(lk)ψbc(lj,lk)

NOTE: Mcb;j does not “include” Mbc;k

Three Variables

17 156Va Vb

P’(vb = lj) ψb(lj)Mab;jMcb;j

12 146

Three Variables

17 156Va Vb

12 146

P(vb = 0) = 0.39

P(vb = 1) = 0.61

Z = 11 x 12 x 4 + 17 x 24 x 2 = 1344

Three Variables

17 156Va Vb

12 146

Three Variables

17 156Va Vb

12 146

What about P(va = li)?

Three Variables

17 156Va Vb

12 146

P’(va = li) Σj Σk ψa(li)ψb(lj)ψc(lk)ψab(li,lj)ψbc(lj,lk)

Three Variables

17 156Va Vb

12 146

P’(va = li) ψa(li)Σj Σk ψb(lj)ψc(lk)ψab(li,lj)ψbc(lj,lk)

Three Variables

17 156Va Vb

12 146

P’(va = li) ψa(li)Σj ψb(lj)Σk ψc(lk)ψab(li,lj)ψbc(lj,lk)

Three Variables

17 156Va Vb

12 146

P’(va = li) ψa(li)Σj ψb(lj)ψab(li,lj)Σk ψc(lk)ψbc(lj,lk)

Three Variables

17 156Va Vb

12 146

P’(va = li) ψa(li)Σj ψb(lj)ψab(li,lj)Mcb;j Mba;i

NOTE: Mba;i “includes” Mcb;j

Three Variables

17 156Va Vb

12 146

P’(va = li) ψa(li)Mba;i

Three Variables

17 156Va Vb

12 146

P(va = 0) = 0.71

P(vb = 1) = 0.29

Z = 192 x 2 + 192 x 5 = 1344

Three Variables

17 156Va Vb

12 146

Start from left, go to right

For current edge (a,b), compute

Mab;k = Σiψa(li)ψab(li,lk)Πn≠bMna;i

Repeat till the end of the chain

Start from right, go to left

Repeat till the end of the chain

P’(va = li,vb = lj) = ?

Normalize to compute true marginals

P’(va = li) = ?

ψa(li)ψb(lj)ψab(li,lj)Πn≠bMna;iΠn≠aMnb;j

ψa(li)ΠnMna;i

Outline

Pearl, 1988

Belief Propagation on Trees

ΣkΣj Σi ψa(li)ψb(lj)ψc(lk)ψd(lo)ψac(li,lk)ψbc(lj,lk)ψcd(lk,lo)

P’(vd = lo)

ψd(lo)ΣkΣj Σi ψa(li)ψb(lj)ψc(lk)ψac(li,lk)ψbc(lj,lk)ψcd(lk,lo)

P’(vd = lo)

ψd(lo)Σkψc(lk)Σj Σi ψa(li)ψb(lj)ψac(li,lk)ψbc(lj,lk)ψcd(lk,lo)

P’(vd = lo)

ψd(lo)Σkψc(lk)ψcd(lk,lo)Σj Σi ψa(li)ψb(lj)ψac(li,lk)ψbc(lj,lk)

P’(vd = lo)

ψd(lo)Σkψc(lk)ψcd(lk,lo)Σj ψb(lj)Σi ψa(li)ψac(li,lk)ψbc(lj,lk)

P’(vd = lo)

ψd(lo)Σkψc(lk)ψcd(lk,lo)Σj ψb(lj)ψbc(lj,lk)Σi ψa(li)ψac(li,lk)

P’(vd = lo) Mac;k

ψd(lo)Σkψc(lk)ψcd(lk,lo)Σj ψb(lj)ψbc(lj,lk)Mac;k

P’(vd = lo) Mbc;k

Mac;k Mbc;k

ψd(lo)Σkψc(lk)ψcd(lk,lo)Mbc;kMac;k

P’(vd = lo)

Mac;k Mbc;k

ψd(lo)Mcd;o

P’(vd = lo)

Mac;k Mbc;k

P’(vc = lk)

Mac;k Mbc;k

ψc(lk)Mac;kMbc;kMdc;k

P’(vb = lj)

Mac;k Mbc;k

ψb(lj)Mcb;j

P’(va = li)

Mac;k Mbc;k

Mcb;jMca;i

ψa(li)Mca;i

Start from leaf, go towards root

For current edge (a,b), compute

Repeat till the root is reached

Start from root, go towards leaves

Repeat till the leafs are reached

P’(va = li,vb = lj) = ?

Normalize to compute true marginals

P’(va = li) = ?

ψa(li)ΠnMna;i

Outline

Pearl, 1988; Murphy et al., 1999

Loopy Belief Propagation

Initialize all messages to 1

In some order of edges, update messages

Until Convergence

Rate of changes in messages < threshold

Mbc contains Mab

Mcd contains Mbc

Mda contains Mcd

Overcounting!!

Initialize all messages to 1

In some order of edges, update messages

Until Convergence

Rate of changes in messages < threshold

Not Guaranteed !!

B’ab(i,j) =

Normalize to compute beliefs Ba(i), Bab(i,j)

B’a(i) =

ψa(li)ΠnMna;i

At convergence Σj Bab(i,j) = Ba(i)

probabilistic inference lecture 6 – part 2

v6probability pv

lkclkj blji aliabli

independent of vb

lki aliabli

independent of b

chains belief propagation

vb z inferencemaxv pvmaximum

lkclkj bljbclj

Documents

probabilistic inference lecture 2

advanced artificial intelligence lecture 5: probabilistic...

doc493: data analysis and probabilistic inference ·...

bayesian inference for nasa probabilistic

plis : a probabilistic lexical inference system

4 : exact inference: variable elimination 1 probabilistic...

probabilistic inference lecture 5 m. pawan kumar...

data analysis and probabilistic...

principled probabilistic inference and interactive...

complex inference in neural circuits with probabilistic...

probabilistic inference in multi-agent systems

cpsc 7373: artificial intelligence lecture 5: probabilistic...

co902 probabilistic and statistical inference · 2013. 1....

probabilistic representations circuits inference learning...

1 probabilistic inference and...

probabilistic modeling & bayesian inference - stan

246 approximating probabilistic inference in bayesian belief...

exact inference for generative probabilistic non...

02 probabilistic inference in graphical models

probabilistic inference in graphical models