chapter 5 data mining for classification · classification & prediction 2 data mining...
TRANSCRIPT
Chapter 5Data Mining for Classification
01/06/571 Data Mining Classification โดย ผศ.วภาวรรณ บวทอง
Classification & Prediction
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง2
Classification เปนกระบวนการสรางโมเดล จดการขอมลใหอยกลมทก าหนดมาให เชน จดกลมนกเรยนวา ดมาก ด ปานกลาง ไมด โดยพจารณาจากประวตและผลการเรยน หรอแบงประเภทของลกคาวาเชอถอได หรอเชอถอไมได โดยพจารณาจากขอมลทมอย
Process of Classification
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง3
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง4
1. แบงขอมลตวอยาง (Samples Data) ออกเปน 3 สวนไดแก - Training Datasets - Validation Datasets - Test Datasets
2. น า Training Datasets มาสราง Decision Tree3. ใช Validation Datasets วดความถกตองในการจ าแนกของ
Tree ทสราง4. ท าซ าขอ 2,3 เพอใหไดความถกตองสงสด5. ใช Testing Datasets มาทดสอบกบ Tree ทไดเพอวดความ
ถกตอง
Classification : Definition
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง5
อลกอรทมทใชในการเหมองขอมลแบบจ าแนก
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง6
ไดแก
• Decision Tree induction
• Naïve Bayes method• K-nearest neighbor (K-NN)
• Neural Network
Decision Tree Example
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง7
Decision Tree Learning Algorithm
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง8
Decision Tree เปนการน าขอมลมาสรางแบบจ าลองการพยากรณในรปแบบโครงสรางตนไม และมการท างานแบบ Supervised Learning (คอการเรยนรของโมเดลแบบมครสอน) สามารถสรางแบบจ าลองการจดหมวดหมไดจากกลมตวอยางขอมลทก าหนดไวลวงหนา และพยากรณกลมของรายการท ยงไ มเคยน ามาจดหมวดหม ไดดวยรปแบบของ Tree โครงสรางประกอบดวย Root Node, Child และ Leaf Node อลกอรทมทใชในการสราง Decision Tree ไดแก - ID3 Algorithm
- C4.5 Algorithm- C5.0 Algorithm- CART Algorithm
เทคนคในการท าเหมองขอมลแบบ Decision Tree
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง9
สมมตวาตองการพยากรณว า ล ก ค าท ป จ จ บ น ไ ด เ ช าสนทรพยอยางใดอยางหนงไปแลว จะมโอกาสตดสนใจซอสนทรพยชนดนนไปเปนของตนเองหรอไม ? โดยใชปจจยในการวเคราะหคอ ระยะเวลาทลกคาไดเชาสนทรพยมาและอายของลกคา
อายเชาสนทรพย อายผเชา ซอสนทรพย
2 25 YES
3 22 YES
1 28 NO
5 30 YES
4 27 NO
2 21 NO
3 23 NO
... ... …
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง10
จากขอมลพบวา “ลกคาทมอายเชาสนทรพยตงแต 2 ปขนไปและอายของผเชาตงแต 25 ปขนไป มกจะตกลงซอสนทรพยเปนของตนเอง” อายเชาสนทรพย
>= 2 ?
อายผเชา
>= 25 ?เชา
เชา ซอ
No
No
Yes
Yes
เทคนคในการท าเหมองขอมลแบบ Decision Tree
Classification Sample Data
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง11
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง12
ขอมลทก าหนดในตาราง เปนขอมลสภาพอากาศ ทใชประกอบการตดสนใจในการเลนกฬาชนดหนง วา มสภาพอากาศอยางไรจงจะเลน (play = yes)
มสภาพอากาศอยางไรจงไมเลน (play = no)
ในงานจ าแนกขอมล (Classification) ขอมลทเปนจดมงหมายในการจ าแนก คอ แอททรบวต play
ขณะท แอททรบวต outlook , temperature , humidity , windy ท าหนาทเปน predicting attributes
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง13
ปญหาทตองพจารณาคอ จะเลอก Attributes ใด ท าหนาทเปน root node ในแตละขนตอนของการสราง tree และ subtree
เกณฑทชวยตดสนใจ ในการเลอก root node คอ ทดลองเลอกAttribute แตละตวมาท าหนาทเปน root node แลวหาคา Gain ซงเปนคาทใชบอกวา attribute ทท าหนาทเปน root node สามารถจ าแนกขอมลไดดมากนอยเพยงใด
จะเลอก attribute ทใหคา Gain สงสดเปน root node
การหาคา Gain
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง14
Gain เปนคาทบอกระดบความสามารถของการจ าแนกคลาสของ attribute หนวยของการวดเปน bits (มาจาก Information Theory)
ถาให T แทน เซตของ Training Set
X แทน แอททรบวต ทถกเลอกใหเปนตวจ าแนกขอมล
Gain(x) = info(T) – infox(T)
การหาคา Gain (ตอ)
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง15
Info(T) เปนฟงกชน ทระบปรมาณขอมลทตองการเพอใหสามารถจ าแนกคลาสทตองการได
info(T) =
เมอ |T| คอ จ านวนขอมลทงหมดใน Training DatasetsFreq(Cj,T) คอ ความถทขอมลใน T ปรากฏเปนคลาส Cj
การหาคา Gain (ตอ)
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง16
Infox(T) หรอ Entropy คอ ฟงกชนทระบปรมาณขอมลทตองการเพอการจ าแนกคลาสของขอมลโดยใช attribute X เปนตวตรวจสอบเพอแยกขอมล
Infox(T) =
เมอ i คอ จ านวนคาทเปนไปไดของแอททรบวต x
|Ti| คอ จ านวนขอมลทมคา x=i
Example
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง17
จากตวอยางขอมลจะหาคา gain ของแตละ attribute ทจะเลอกเปน Root node
1. จะตองหาคา info(T)
2. หาคา infox(T) ของแตละแอททรบวต
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง18
คา info outlook(T) หาไดดงน
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง19
การจะจ าแนกคลาสของขอมลออกเปน play = yes หรอ play = no ตองใชขอมลจากแอททรบวตอนประกอบการตดสนใจ ถาแอททรบวต outlook จะตองดขอมลเพอประกอบการเลอกคลาส ดงน
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง20
Classification : Constructing Decision Tree
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง21
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง22
Classification : Constructing Decision Tree (ตอ)
เปรยบเทยบคา Gain ทได
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง23
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง24
เนองจากแอททรบวต outlook ยงไมสามารถจดกลมขอมลใหเปนคลาสเดยวกนไดทงหมด (outlook = sunny จดกลมขอมลทเปนคลาส yes=2 recs, no=3 recs และ outlook = rainy จดกลมขอมลทเปนคลาส yes=3 recs, no=2 recs) จงตองสราง decision tree ตอ โดยเลอกแอททรบวตทจะมาเปน node ในระดบท 2 ตอจาก root node ในกรณ outlook = cloudy ไมจ าเปนตองสราง node เพมเตม เพราะสามารถจดกลมขอมลทเปนคลาส yes ไดทงหมด
Constructing Decision Tree (ตอ)
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง25
แอททรบวตทสามารถถกเลอกเปน node ในระดบท 2 ได คอ temperature, humidity และ windy
พจารณาการสรางโหนดลกทางซายมอ outlook = sunny ถาเลอกแอททรบวต temperature จะไดค านวณคา gain ไดดงน
เนองจาก outlook = sunny จดกลมขอมลทเปนคลาส yes=2 recs, no=3 recs ดงนน
Constructing Decision Tree (ตอ)
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง26
Constructing Decision Tree (ตอ)
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง27
Constructing Decision Tree (ตอ)
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง28
เมอลอง outlook = sunny แลว ทดลองจ าแนกกลมตอไปดวยแอททรบวตcloudy
Constructing Decision Tree (ตอ)
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง29
เมอลอง outlook = sunny แลว ทดลองจ าแนกกลมตอไปดวยแอททรบวตhumidity
Constructing Decision Tree (ตอ)
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง30
ในท านองเดยวกนเมอ outlook = sunny แลว ทดลองสราง decision tree ดวยแอททรบวตอนๆ จะไดคา gain ดงตอไปน
gain(temperature) = 0.571gain(humidity) = 0.971gain(windy) = 0.020
จงพจารณาเลอกแอททรบวต humidity (เพราะมคา gain สงสด) เปน node ในระดบทสองตอจากโหนด outlook
Constructing Decision Tree (ตอ)
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง31
decision tree ยงเหลอโหนดลกทางขวาของโหนด outlook ทตองพจารณาเลอกแอททรบวตและจากวธค านวณคา gain ทผานมากอนหนาน สามารถเลอกไดวา แอททรบวต windy จะใหคา gain สงทสด
กระบวนการสราง decision tree จะสนสด กตอเมอ leaf node เปนกลมของขอมลคลาสเดยวกนทงหมด
Constructing Decision Tree (ตอ)
Classification Rule
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง32
ในกรณทมขอมลใหมทยงไมทราบคลาส “outlook = sunny, temperature = cool, humidity = high, windy = true” สามารถใช decision tree ท านายคลาสของขอมลนวา play = no โดยพจารณาจากเพยง 2 แอททรบวต คอ outlook = sunny และ humidity = high
Decision tree สามารถแปลงเปน Classification rule ไดดงน
rule 1 : IF (outlook = sunny) AND (humidity = high) THEN play = no
rule 2 : IF (outlook = sunny) AND (humidity = normal)THEN play = yes
rule 3 : IF (outlook = cloudy) THEN play = yes
rule 4 : IF (outlook = rainy) AND (windy = false) THEN play = yes
rule 5 : IF (outlook = rainy) AND (windy = true) THEN play = no
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง33
Exercise
01/06/57Data Mining Classification โดย ผศ.วภาวรรณ บวทอง34
จากขอมล ความคดเหนของคน 7 คน ทตองการเลอกผสมครหมายเลข 1 หรอ หมายเลข 2 โดยพจารณาจากอาย รายได และการศกษาของผแสดงความคดเหน ปรากฎดงตาราง ใหสราง Decision Tree พรอมแสดงกฎการเรยนรทได
No Age Income Education Candidate
1 >=35 High High School 1
2 <35 Low University 1
3 >=35 High College 2
4 >=35 Low High School 2
5 >=35 High University 1
6 <35 High College 1
7 <35 Low High School 2