bayes classification - nuu.edu.twdebussy.im.nuu.edu.tw/sjchen/machinelearning/final/... ·...
TRANSCRIPT
-
授課教師:陳士杰授課教師:陳士杰國立聯合大學國立聯合大學 資訊管理學系資訊管理學系
貝氏分類 Bayes
Classification
-
2國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
■綱要
基礎機率論回顧
單純貝氏分類法
m-estimate方法的條件機率
貝氏信念網路
-
3國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
■基礎機率論回顧
先天機率理論
條件機率
總合機率定理
貝氏定理
-
4國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
先天機率理論(Priori Theory of Prob.)
古典機率、事前機率
根據事物事先已知的本性作決定
只能用於有限樣本空間,每一樣本點出現的機率相同。
r: 某評估對象
N: 樣本空間中所有可能事物的集合
nE
: 樣本空間的部份集合,為具有某種特性的事物之集合
0 ≤
Pr
(E) ≤
1
舉例
根據過去的經驗,生產線A不良率PA
(不良)為0.6,生產線B為
PB
(不良) =
0.1。
根據過去的經驗,學生A數學不及格率PA
(不及格)為0.6,學生B
為PB
(不及格)= 0.1。
NnEP Er =)(
-
5國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
條件機率
某事件 B 已發生的情況下,再發生另一事件 A 之機率, 稱為條件機率。
根據額外的事件B,修正事件A發生的機率
當追到校花後,考上研究所的機率 P(研究所|校花)
條件相同時,P(A|B) + P(A’|B) = 1
若 A, B 兩事件獨立,則:
)()()|(
BPBAPBAP ∩=
)()(
)()|(
APBP
BAPBAP
=
∩=
><
A, B不獨立
-
6國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
互斥 (Mutually Exclusive / Disjoint)
指:兩事件不會同時發生
集合上的概念,可由Venn圖看出。
P(A∩B) = 0
獨立 (Independence)
指:一事件發生與否,不會影響另一事件發生之機率
機率上的概念,無法由圖形看出。
P(A∩B) = P(A)×P(B)
既獨立又互斥在兩個機率非零的事件下不可能發生。
A B
當:
• P(B) ≠
0時,P(A|B) = P(A∩B)/P(B) = P(A)
• P(A) ≠
0時,P(B|A) = P(A∩B)/P(A) = P(B)
-
7國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
三事件 A, B, C 彼此完全相互獨立需四個條件
P(A∩B) = P(A)P(B)
P(A∩C) = P(A)P(C)
P(B∩C) = P(B)P(C)
P(A∩B∩C) = P(A)P(B)P(C)
僅符合 為成對獨立;若符合 為三者相互獨立。
舉例:
研究所
大樂透
校花
P(校花∩研究所) = P(研究所)P(校花)
P(校花∩大樂透) = P(大樂透)P(校花)
P(大樂透∩研究所) = P(大樂透)P(研究所)
P(大樂透∩研究所∩校花) ?? P(大樂透)P(研究所)P(校花)
-
8國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
條件獨立 (Conditionally Independent )
假設有三個隨機變數A、B與C。當變數A與變數B在給定條件C的
情況下互相獨立,即稱條件獨立,可表示成:
P(A∩B|C) = P(A|C)×P(B|C)
舉例:
通常,一個人心智的幼稚程度(A)會隨著年齡(B)的增長,而隨之降
低(即:兩者相關、不獨立)。然而,當與心儀的異性(C)熱烈交往 時,不論男女,其幼稚程度(A)與年齡(B)的長幼似乎又變得無關了
(即:相互獨立)。
條件獨立的另一種表示式(假設要件如上):P(A|B∩C) = P(A|C)
証明 (自行參考): P(A|B∩C) = P(A∩B∩C)/P(B∩C)= P(A∩B∩C)/P(C) ×P(C)/P(B∩C)
= P(A∩B|C) ×
1/P(B|C)
= P(A|C)×P(B|C) /P(B|C)
=
P(A|C)
-
9國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
聯合機率、邊際機率
聯合機率分配表
1P(yn
)…P(yj
)…P(y1
)P(Y)
P(xm
)
P(xi
)
P(x1
)
P(X)
……
……
…
…
…
…
…
…
…
…
xm
xi
x1
ynyjy1
P(xm
∩yn
)P(xm
∩yj
)P(xm
∩y1
)
P(xi
∩yn
)P(xi
∩yj
)P(xi
∩y1
)
P(x1
∩yn
)P(x1
∩yj
)P(x1
∩y1
)
隨
機 變 數 X
隨機變數 Y
……
……
……
……
……
聯合機率(Joint Prob.) 邊際機率 (Marginal Prob.)
-
10國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
舉例:
設X與Y為兩個隨機變數,且聯合機率分配表如下。試問:X與
Y是否獨立?
解
X與Y不獨立!!
Y
y1
=文學院 y2
=商學院 y3
=工學院
Xx1
=女 0.12 0.3 0.18
x2
=男 0.08 0.1 0.22
Y
y1
=文學院 y2
=商學院 y3
=工學院 P(X)
Xx1
=女 0.12 0.3 0.18 0.6
x2
=男 0.08 0.1 0.22 0.4
P(Y) 0.2 0.4 0.4 1
P(x1
∩y1
)=
P(x1
)P(y1
)
P(x1
∩y2
)
≠P(x1
)P(y2
)
-
11國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
實務上,有時會拿到以下的調查資料:
這是因為兩事件同時發生的機率P(Xi
∩Yj
)難以收集
以此例而言,每一直欄變數Y的機率總合皆為1,故直欄為給定
之條件,而橫列變數X為欲討論變數。
Y
Y1
=台北市 Y2
=台中市 Y3
=高雄市
XX1
=抽煙 0.5 0.4 0.6 1.5
X2
=不抽煙 0.5 0.6 0.4 1.5
1 1 1
P(X1
|Y1
)
-
12國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
總合機率定理(Theorem of Total Prob.)
分割 (Partition)
設H1
, H2
, …, Hr
為樣本空間S中的部份集合,若滿足:
H1
∪H2 ∪…∪ Hr
= S
Hi
∩Hj
=φ, ∀i ≠
j
則稱{H1
, H2
, …, Hr
}為S中之一分割
S
H1H2
Hr…
-
13國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
B
設{H1
, H2
, …, Hr
}為樣本空間S中的分割。若某事件B ⊂ S,則事件B的發生機率P(B)為:
S
H1H2
Hr…
[ ]
∑=
=
+++=∩++∩+∩=
∩∪∪∩∪∩=
r
iii
rr
r
r
HBPHP
HBPHPHBPHPHBPHPHBPHBPHBP
HBHBHBPBP
1
2211
21
21
)|()(
)|()(...)|()()|()()(...)()(
)(...)()()(
-
14國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
貝氏定理 (Bayes’
Theorem)
由結果去追溯某個原因發生的機率,即由後天去推測先天。
設{H1
, H2
, …, Hr
}為樣本空間S中的分割 (r≥2),B為S中的任意事 件。若P(B)>0,P(Hi
)>0,i = 1, 2, …, r ,
j = 1, 2, …, r,則:
P(Hj
):事前機率(先天機率),依據現有資訊所求得的機率。
P(Hj
|B):事後機率,根據額外的資訊,經修正求得的機率。
∑
∑
=
=
=
=
=
r
iii
jj
r
ii
j
jj
HBPHP
HBPHP
BHP
BHPBP
BHPBHP
1
1
)|()(
)|()(
)(
)()(
)()|(
I
I
I
B
S
H1H2
Hr…
-
15國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
舉例:依下表,
請算出一年下雨的機率 P(雨)。
假設某一天在下雨,這一天是秋天的機率為何?
解:
P(雨) = P(春)P(雨|春)+P(夏)P(雨|夏)+ P(秋)P(雨|秋)+ P(冬)P(雨|冬)
= 025×0.3 + 025×0.4 + 025×0.2 + 025×0.3
= 0.3
P(秋|雨) = P(雨∩秋)/P(雨) = P(秋)P(雨|秋)/P(雨)
= 025×0.4 /0.3
= 0.1666
春 夏 秋 冬
雨 0.3 0.4 0.2 0.3
晴 0.7 0.6 0.8 0.7
-
16國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
■單純貝氏分類 (Naïve Bayes)
單純貝氏分類法假定所有變數(屬性)對分類均是有用 的,且這些變數間是相互獨立。
為了說明單純貝氏分類法的概念,在此以天氣評估的資 料集來做範例。 Outlook
Sunny Overcast RainYes 2 4 3No 3 0 2Yes 2/9 4/9 3/9No 3/5 0/5 2/5
Temp.Hot Mild Cool
Yes 2 4 3No 2 2 1Yes 2/9 4/9 3/9No 2/5 2/5 1/5
HumidityHigh Normal
Yes 3 6No 4 1Yes 3/9 6/9No 4/5 1/5
WindWeak Strong
Yes 6 3No 2 3Yes 6/9 3/9No 2/5 3/5
P(Sunny|Yes)
Yes: 9No: 5
-
17國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
此資料集主要是建立出 “在何種天氣模式下,會/不會去打網球” 的分類模型。
令:
Outlook = H1
; Temp. = H2
; Humidity = H3
; Wind = H4
Play Tennis = B
所有變數皆相互獨立
問題:有一組待分類的天氣屬性如下:
{H1
= Sunny, H2
= Cool, H3
= High, H4
= Strong, B = ?}
以單純貝氏分類法來處理該分類問題,需對類別欄位(即:Play
Tennis (B))中的每個值
(Yes or No),分別計算其在特定天氣屬
性集合 H = (H1
∩H2
∩H3
∩H4
)下之事後機率。即:
P(B=Yes|H)
P(B=No|H)
-
18國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
以 B = Yes 來說,其事後機率為:
以 B = No 來說,其事後機率為:
)(
)|()(
)()|()|()|()|()(
)()()|(
)()()|(
)()()|(
4
1
4321
4321
HP
YesBHPYesBP
HPYesBHPYesBHPYesBHPYesBHPYesBP
HPYesBPYesBHHHHP
HPYesBPYesBHP
HPYesBHPHYesBP
ii∏
=
===
======
===
===
===
III
I
條件獨立
)(
)|()(
)()()|(
)()()|(
)()()|(
4
1
4321
HP
NoBHPNoBP
HPNoBPNoBHHHHP
HPNoBPNoBHP
HPNoBHPHNoBP
ii∏
=
===
===
===
===
III
I條件獨立
………(1)
………(2)
-
19國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
上述公式中的P(B=Yes)和P(B=No)都是屬於事前機率。在
本範例中, P(B=Yes) = 9/14,P(B=No)=5/14。
以上述公式 (1)、(2)來說,不論是在求解B為Yes或No,分
母P(H)皆相同,故可視為固定的常數,為計算的簡便性可 省略它!!因此,公式
(1)、(2) 可修正為概似函數
(Likelihood Function):
因此,以本範例的待分類資料{H1
= Sunny, H2
= Cool, H3
= High, H4
= Strong}來說:
P(B=Yes|H) = 9/14×
2/9×3/9×3/9 ×3/9=0.0053
P(B=No|H) = 5/14×
3/5×1/5×4/5 ×3/5=0.0206
∏=
====4
1
)|()()|(i
i YesBHPYesBPHYesBP
∏=
====4
1
)|()()|(i
i NoBHPNoBPHNoBP
………(3)
………(4)
Outlook
Sunny Overcast Rain
Yes 2 4 3
No 3 0 2
Yes 2/9 4/9 3/9
No 3/5 0/5 2/5
Temp.
Hot Mild Cool
Yes 2 4 3
No 2 2 1
Yes 2/9 4/9 3/9
No 2/5 2/5 1/5
Humidity
High Normal
Yes 3 6
No 4 1
Yes 3/9 6/9
No 4/5 1/5
Wind
Weak Strong
Yes 6 3
No 2 3
Yes 6/9 3/9
No 2/5 3/5
-
20國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
最後,透過標準化(Normalizing)的步驟,將上述的計算結果加
以轉換以滿足機率總合為 1的要求。
根據計算結果,此待分類的天氣屬性,被判別為B = No。
{H1
= Sunny, H2
= Cool, H3
= High, H4
= Strong, B = No}
%5.790206.00053.0
0206.0
%5.200206.00053.0
0053.0
=+
=
=+
=
的機率
的機率
No
Yes
-
21國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
以上述天氣評估的範例來擴大解釋單純貝氏分類法。
假設有r個評估屬性 {H1
, H2
, …, Hr
};類別屬性B中有m個類別
值 B={b1
, b2
, …, bm
},則待分類屬性集合H = (H1 = h1
∩H2 = h2 ∩…∩Hr = hr
)與每個類別值的計算公式如下:
藉由標準化的過程,將前述m個計算結果做標準化,以滿足機
率總合為1的要求,進而找出機率值最大的類別,做為待分類屬 性集合H的類別。
.,,1,)|()()|(1
mjbBHPbBPHbBPr
ijijj K===== ∏
=
-
22國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
利用單純貝氏分類法於貸款分類問題
現有一組預測貸款歸還情形的訓練資料如下表,資料類 型可分成兩大類:
離散型資料欄位
資料的值域有限或可數
連續型資料欄位
資料的值域繁多或不可數
-
23國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
就離散型資料欄位(屬性)而言:
對於某個離散型資料欄位 X 而言,其條件機率P(X = xi |Y = y)是指 在 y類別中的部份訓練資料,具有特別的屬性值 xi。
如前圖,有3/7無拖欠貸款的人,是擁有房子的。P(Home Owner = Yes | Defaulted Borrower = No)
2/3有拖欠貸款的人,是單身的。P(Marital Status = Single | Defaulted Borrower = Yes)
-
24國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
就連續型資料欄位(屬性)而言:可以假設該連續變數符合某個機率分配,然後使用訓練資料來
估計該分配的參數。
常態分配(高斯分配)最常被用來表示連續變數的類別條件機率。
該分配有兩個參數:平均數μ與變異數 σ2
對於每個類別yj而言,連續型資料欄位 X 的類別條件機率如下:
參數μ 可以經由連續型資料欄位 X 中、屬於類別yj之樣本平均數 估計而來。而σ2 可以從樣本變異數 Sj2 估計而來。
2
2
2)(
21)|( σ
μ
σπ
−−
===ix
ji eyYxXP
jX
-
25國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
以本範例中的年收入(Annual Income)而言,在類別為 no
時的樣
本平均數與變異數為:
假設現有一測試資料,年收入為120K,那麼可以計算類別為no
時的條件機率 (以常態分配為主):
0072.0)54.54(2
1)|120( 29752)110120( 2
==== ×−−
eNoYIncomePπ
54.54
29757
)11075(...)110100()110125(
1107
75...100125
2222
=
=−++−+−
=
=+++
=
No
No
No
S
S
X
-
26國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
因此,本範例的所有可能條件機率整理如下圖所示:
-
27國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
現有一筆測試資料H={Home Owner = No, Marital Status = Married, Income = 120K},要得知其是否會拖
欠貸款 (Defaulted Borrower = ?)。每個類別的事前機率分別為:P(Yes) = 0.3, P(No) = 0.7。
每個類別的條件計算公式如下:
所以這筆測試資料被判為類別 No
.0102.1013.0
)|120()|()|()(
)|()()|(
.00165.0
0072.074
747.0
)|120()|()|()(
)|()()|(
9
3
1
3
1
=××××=
=×=×=×=
====
=
×××=
=×=×=×=
====
−
=
=
∏
∏
YesKIncomeAnnualPYesMarriedStatusPYesNoOwnerHomePYesP
YesBHPYesBPHYesBP
NoKIncomeAnnualPNoMarriedStatusPNoNoOwnerHomePNoP
NoBHPNoBPHNoBP
ii
ii
-
28國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
當有資料遺漏時,對分類結果不會造成太大的影響。
當訓練範例有資料遺漏時:
在進行頻率計數時,僅需忽略對該遺漏值的計算,同時在機率計
算中使用實際出現的值之個數,而非訓練資料的總數。
當測試資料有遺漏時:
假設有一組待分類的天氣屬性如下 (缺
“Outlook (H1
)”):
{H2
= Cool, H3
= High, H4
= Strong, B = ?}
在計算時,僅需簡單忽略這個屬性:
P(B=Yes|H) = 9/14×3/9×3/9 ×3/9=0.0238
P(B=No|H) = 5/14×1/5×4/5 ×3/5=0.0343
這兩個數值分別比之前的計算值高很多,因為計算時少了一部份
的數值,但是不影響結果,因為這樣的遺漏值對所有類別的計算 都影響到了。
標準化後,得到的Yes和No的機率分別為41%和59%。
單純貝氏分類法討論
-
29國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
如果某個屬性的資料,並不是在每個類別都會出現的
話,則會發生問題。
例如:前述“在何種天氣模式下,會/不會去打網球”的問題中, 當B = No時,
Outlook = Overcast的個數為
0 ,則其條件機率
P(Outlook=Overcast|B=No) = 0。
這會使得整個類別的概似函數公式為0。
這是當訓練資料過少、而屬性個數過多時所產生的問題。
OutlookSunny Overcast Rain
Yes 2 4 3No 3 0 2Yes 2/9 4/9 3/9No 3/5 0/5 2/5
-
30國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
假設有一組待分類的天氣屬性如下:
{H1
= Overcast, H2
= Cool, H3
= High, H4
= Strong, B = ?}
在計算時:
P(B=Yes|H) = 9/14×4/9×3/9×3/9 ×3/9=0.0106
P(B=No|H) = 5/14×0/5×1/5×4/5 ×3/5=0
標準化後,得到的Yes和No的機率分別為 1 和
0。
在理論上是正確的,因為只要Outlook為Overcast就可打
網球。但這個結果違背了單純貝氏分類法的基本假設:所 有變數對分類均是有用的。這個範例僅靠Outlook =
Overcast來決定。
解決:Laplace estimator或m-estimate方法
Outlook
Sunny Overcast Rain
Yes 2 4 3
No 3 0 2
Yes 2/9 4/9 3/9
No 3/5 0/5 2/5
Temp.
Hot Mild Cool
Yes 2 4 3
No 2 2 1
Yes 2/9 4/9 3/9
No 2/5 2/5 1/5
Humidity
High Normal
Yes 3 6
No 4 1
Yes 3/9 6/9
No 4/5 1/5
Wind
Weak Strong
Yes 6 3
No 2 3
Yes 6/9 3/9
No 2/5 3/5
-
31國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
單純貝氏分類法假定所有變數間是相互獨立。但是這對
於大多數資料集而言,是一個不切實際的假設。
一般而言,變數間都有某種程度的關聯性。
關聯度高的變數可能會因為沒有滿足條件獨立的假設,而使得誤
判率提高。
解決:貝氏信念網路
-
32國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
■ Laplace Estimator
由於前述討論 的問題是發生在簡單貝氏分類法中,條
件機率連乘時發生乘 0 的情況,使得某類別 bj 的概似函
數計算結果為 0。
使用Laplace Estimator評估條件機率的作法如下:
概念:對造成條件機率為0之屬性,將其所屬類別 bj
之機率計算
公式的分子、分母皆加上一數值,使該機率不為0
分子:加上1。
分母:加上q,其中 q 為該屬性內的不同資料個數。
.,,1,)|()()|(1
mjbBHPbBPHbBPr
ijijj K===== ∏
=
-
33國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
以是否打網球之分類問題為例
在是否打網球之分類問題中,條件機率P(Outlook
=
Overcast|B
= No) = 0
因為在類別為No中,沒有一筆訓練資料其屬性 “Outlook”
為陰
天(Overcast)。
在此使用Laplace Estimator,對類別為No之所有 Outlook情況的條件機率做修正:
OutlookSunny Overcast Rain
Yes 2 4 3No 3 0 2Yes 2/9 4/9 3/9No 3/5 0/5 2/5
4/8 1/8 3/8
-
34國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
假設有一組待分類的天氣屬性如下:
{H1
= Overcast, H2
= Cool, H3
= High, H4
= Strong, B = ?}
在計算時:
P(B=Yes|H) = 9/14×4/9×3/9×3/9 ×3/9=0.0106
P(B=No|H) = 5/14×1/8×1/5×4/5 ×3/5=0.00429
標準化後,得到的Yes和No的機率分別為 0.71189 和
0.28811。
根據計算結果,此待分類的天氣屬性,被判別為B =
Yes。
Outlook
Sunny Overcast Rain
Yes 2 4 3
No 3 0 2
Yes 2/9 4/9 3/9
No 4/8 1/8 3/8
Temp.
Hot Mild Cool
Yes 2 4 3
No 2 2 1
Yes 2/9 4/9 3/9
No 2/5 2/5 1/5
Humidity
High Normal
Yes 3 6
No 4 1
Yes 3/9 6/9
No 4/5 1/5
Wind
Weak Strong
Yes 6 3
No 2 3
Yes 6/9 3/9
No 2/5 3/5
-
35國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
■ m-estimate方法由於Laplace Estimator
在為有問題之條件機率的分子與
分母加數值的做法較無充份理由。故有其它方法來重新 計算相關的條件機率。
使用m-estimate方法評估條件機率的公式如下:概念:對造成條件機率為0之屬性,將其所屬類別 bj
之機率計算
公式的分子、分母皆加上一數值,使該機率不為0分子:加上μ×p。
分母:加上μ
p:造成條件機率為0之屬性,其所有屬性值的事前機率。假設有n
個不同屬性值,則:簡單:每個屬性值的事前機率皆一致為 1/n
複雜:每個屬性值的事前機率為 (該屬性值出現的個數)/(總樣本數)
μ:為整數,主要是決定造成條件機率為0之屬性內,不同屬性值
之事前機率的權重。有幾種設定法:一致:設成該屬性內的不同屬性值個數 n 。
不一致:較重要的屬性值其μ值較大;較不重要的屬性值其μ值較小。
-
36國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
以是否打網球之分類問題為例
在是否打網球之分類問題中,條件機率P(Outlook
=
Overcast|B
= No) = 0
在此使用m-estimate,對類別為No之所有Outlook情況 的條件機率做修正:
令μ=3,即不同屬性值之事前機率的權重一致
令每個屬性值的事前機率皆一致為 1/3
OutlookSunny Overcast Rain
Yes 2 4 3No 3 0 2Yes 2/9 4/9 3/9No 3/5 0/5 2/5
[3+3×1/3] / [5+3]= 4/8
[0+3×1/3] / [5+3]= 1/8 [2+3×1/3] / [5+3]= 3/8
-
37國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
假設有一組待分類的天氣屬性如下:
{H1
= Overcast, H2
= Cool, H3
= High, H4
= Strong, B = ?}
在計算時:
P(B=Yes|H) = 9/14×4/9×3/9×3/9 ×3/9=0.0106
P(B=No|H) = 5/14×1/8×1/5×4/5 ×3/5=0.00429
標準化後,得到的Yes和No的機率分別為 0.71189 和
0.28811。
根據計算結果,此待分類的天氣屬性,被判別為B =
Yes。
Outlook
Sunny Overcast Rain
Yes 2 4 3
No 3 0 2
Yes 2/9 4/9 3/9
No 4/8 1/8 3/8
Temp.
Hot Mild Cool
Yes 2 4 3
No 2 2 1
Yes 2/9 4/9 3/9
No 2/5 2/5 1/5
Humidity
High Normal
Yes 3 6
No 4 1
Yes 3/9 6/9
No 4/5 1/5
Wind
Weak Strong
Yes 6 3
No 2 3
Yes 6/9 3/9
No 2/5 3/5
-
38國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
■貝氏信念網路 (Bayesian Belief Networks; BBN)
簡單貝氏分類法要求所有屬性(變數)都滿足條件獨立過於 嚴格。而貝氏信念網路 (簡稱貝氏網路) 則允許指定哪些屬 性需符合條件獨立。
貝氏網路的兩個重要元素是:
用有向的非循環圖表示變數間的相依關係
用機率表記錄每個節點和它的直接父節點間的關聯性
-
39國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
在貝氏網路中,每一個節點表示一個變數,每個箭號表 示兩個變數間的依賴關係。
圖(a)中,變數A與B相互獨立,且都會直接影響第三個變數C。
變數A與B是變數C的父節點,C為A與B的子節點。而變數W與這 三個變數獨立
圖(b)中,從變數D到變數A(或B)有一條非直接的有向路徑存
在,故節點D是節點A(或B)的祖先,而A(或B)是D的孫節點。
前面所提的簡單貝氏分類法中的條件獨立,可繪製成圖(C)。其
中 bj
是目標類別,而{H1
, …, Hr
}是屬性集合。
bj
H1 H2 H3 H4 Hrw
-
40國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
所有屬性都符合條件獨立的情況並不一定會成立
將真的符合條件獨立的屬性區隔出來,而不符合條件的 獨立的屬性則保持相依的關係
)|...(
)|()|()|...(
3
21321
jr
jjjr
bBHHP
bBHPbBHPbBHHHHP
=
×=×===
II
IIII
bj
H1 H2 H3 ∩…∩Hr
-
41國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
貝氏網路的每個節點間之關聯性,會表現於機率表中。
如果節點X沒有任何父節點,則表中僅包含事前機率P(X)
如果節點X只有一個父節點Y,則表中將包含條件機率P(X|Y)
如果節點X有多個父節點{Y1
, Y2
, …, Yk
},則表中將包含條件機
率P(X|Y1
, Y2
, …, Yk
)
下圖為一貝氏網路中某部分結構圖之機率表
P(X4 =0)
P(X5 =0|X4 =1)
P(X2 =1|X5 =0∩X4 =1)
-
42國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
上述每個機率表中的任一橫列之機率總和必為1。
寫出機率表後就很容易將事情給條理化,且輕易地得知此貝氏網
路結構圖中各節點間之因果關係。
若是節點 是由很多的「因」所造成的「果」,如此機率表就會
變得在計算上既複雜又使用不便。
模式建立的兩個步驟:
1.
建立網路結構
2.
形成每個節點與節點關聯的機率表
-
43國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
舉例:
假設有兩個伺服器 (S1
, S2
),會傳送封包到使用者端 (以U表示
之),但是第二個伺服器的封包傳送成功率會與第一個伺服器傳 送成功與否有關,因此此貝氏網路的結構可以表示如下。
-
44國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
就每個封包傳送而言,只有兩種可能值:T(成功) 或 F(失敗)。
則此貝氏網路之聯合機率分配可以表示成:
P(U∩S1
∩S2
) = P(U| S1
∩S2
)×
P(S2
|S1
)×
P(S1
)
問題:假設已知使用者端成功接受到封包,求第一伺服器成功
發送封包的機率 P(S1
=T|U=T)?
-
45國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
解:
%96.68)07.06.0()13.06.0()13.04.0()17.04.0(
)13.04.0()17.04.0()()(
)()()()(
)(
)()(
)()|(
2121
2121
2121
},{,21
},{21
11
21
2
≈××+××+××+××
××+××=
⎥⎦
⎤⎢⎣
⎡===+===
+===+======+===
=
=
===
===
===
∑∑
=
=
P
TUFSFSPTUTSFSPTUFSTSPTUTSTSPTUFSTSPTUTSTSP
TUSSP
TUSTSPTUP
TUTSPTUTSP
FTSS
FTS
IIII
IIII
IIII
II
II
I
P(U = T∩S1 = T∩S2 = T)= P(U = T | S1 = T∩S2 = T) ×
P(S2 = T | S1 = T) ×P(S1 = T)
-
46國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))
貝氏信念網路的特性
提供一個利用圖形模式從特定領域當中獲取知識的方法,而這個
網路可以用來表示變數間的因果關係
要建立一個網路也許需要耗費大量的時間;但網路模式建立後,
就可很快的增加新變數
適合用來處理不完整的資料問題。而如果資料本身具有遺漏值的
話,也可以藉由彙整、或是整合所有屬性的可能值,來處理這個 問題
貝氏網路的功能強大,然而相對於其他的機器學習方法,極耗電
腦計算成本
投影片編號 1■綱要■基礎機率論回顧先天機率理論(Priori Theory of Prob.)條件機率投影片編號 6投影片編號 7投影片編號 8聯合機率、邊際機率投影片編號 10投影片編號 11總合機率定理(Theorem of Total Prob.)投影片編號 13貝氏定理 (Bayes’ Theorem)投影片編號 15■單純貝氏分類 (Naïve Bayes)投影片編號 17投影片編號 18投影片編號 19投影片編號 20投影片編號 21利用單純貝氏分類法於貸款分類問題投影片編號 23投影片編號 24投影片編號 25投影片編號 26投影片編號 27單純貝氏分類法討論投影片編號 29投影片編號 30投影片編號 31■ Laplace Estimator以是否打網球之分類問題為例投影片編號 34■ m-estimate方法以是否打網球之分類問題為例投影片編號 37■貝氏信念網路 �(Bayesian Belief Networks; BBN)投影片編號 39投影片編號 40投影片編號 41投影片編號 42投影片編號 43投影片編號 44投影片編號 45投影片編號 46