socio-economic household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2...

23
1 การวิเคราะห์ข้อมูลทางเศรษฐกิจและสังคมของครัวเรือนด้วยวิธีการแบ่งกลุ ่ม และหาความสัมพันธ์ สาหรับการทาเหมืองข้อมูล Socio-Economic Household data analysis using the Clustering and Association Technique for Data Mining ชฎารัตน์ พิพัฒนนันท์ Chadarat Phipathananunth อาจารย์ประจาสาขาวิชาเทคโนโลยีสารสนเทศและการสื่อสาร คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยหอการค้าไทย E-mail: [email protected] สิริธร เจริญรัตน์ Sirithorn Jalearnrat อาจารย์ประจาสาขาวิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยหอการค้าไทย E-mail: [email protected] บทคัดย่อ งานวิจัยนี ้เป็นการศึกษาและวิเคราะห์ข ้อมูลการสารวจภาวะเศรษฐกิจและสังคมของครัวเรือน ประจาปี พ.ศ. 2552 โดยนาความรู้ทางด้านการทาเหมืองข้อมูลมาใช้เพื่อจัดกลุ ่มข้อมูลตามการใช้จ่ายของ ประชากรโดยใช้อัลกอริทึมเคมีนสาหรับหากลุ่มของข้อมูลที่เหมาะสมจากค่า DB Index และ SD Validity Index พบว่าจานวนกลุ่มที่เหมาะสมคือ 3 กลุ่ม จากนั ้นใช้กฎความสัมพันธ์ในการหาความสัมพันธ์ของ ข้อมูลในแต่ละกลุ่ม เพื่อนาไปหาตัวแปรที่มีความสัมพันธ์กัน ผลการวิจัยพบว่ากฎความสัมพันธ์ที่ได้ใน แต่ละกลุ่มมีลักษณะคล้ายคลึงกัน เช่น รายได้เฉลี่ยต่อเดือนของครัวเรือนมีความสัมพันธ์กับค่าใช้จ่าย เฉลี่ยต่อเดือนของครัวเรือน ขนาดของครัวเรือนมีความสัมพันธ์กับจานวนผู้หารายได้ และค่าใช้จ่ายยาสูบ ต่อเดือนของครัวเรือนมีความสัมพันธ์กับจานวนสมาชิกที่มีสิทธิในการเบิกค่ารักษาพยาบาล เป็นต้น คาสาคัญ : อัลกอริทึมเคมีน กฎความสัมพันธ์

Upload: others

Post on 10-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

1

การวเคราะหขอมลทางเศรษฐกจและสงคมของครวเรอนดวยวธการแบงกลม และหาความสมพนธ ส าหรบการท าเหมองขอมล

Socio-Economic Household data analysis using the Clustering and Association Technique for Data Mining

ชฎารตน พพฒนนนท

Chadarat Phipathananunth อาจารยประจ าสาขาวชาเทคโนโลยสารสนเทศและการสอสาร คณะวทยาศาสตรและเทคโนโลย มหาวทยาลยหอการคาไทย

E-mail: [email protected]

สรธร เจรญรตน Sirithorn Jalearnrat

อาจารยประจ าสาขาวชาวทยาการคอมพวเตอร คณะวทยาศาสตรและเทคโนโลย มหาวทยาลยหอการคาไทย

E-mail: [email protected]

บทคดยอ

งานวจยนเปนการศกษาและวเคราะหขอมลการส ารวจภาวะเศรษฐกจและสงคมของครวเรอน ประจ าป พ.ศ. 2552 โดยน าความรทางดานการท าเหมองขอมลมาใชเพอจดกลมขอมลตามการใชจายของประชากรโดยใชอลกอรทมเคมนส าหรบหากลมของขอมลทเหมาะสมจากคา DB Index และ SD Validity Index พบวาจ านวนกลมทเหมาะสมคอ 3 กลม จากนนใชกฎความสมพนธในการหาความสมพนธของขอมลในแตละกลม เพอน าไปหาตวแปรทมความสมพนธกน ผลการวจยพบวากฎความสมพนธทไดในแตละกลมมลกษณะคลายคลงกน เชน รายไดเฉลยตอเดอนของครวเรอนมความสมพนธกบคาใชจายเฉลยตอเดอนของครวเรอน ขนาดของครวเรอนมความสมพนธกบจ านวนผหารายได และคาใชจายยาสบตอเดอนของครวเรอนมความสมพนธกบจ านวนสมาชกทมสทธในการเบกคารกษาพยาบาล เปนตน

ค าส าคญ : อลกอรทมเคมน กฎความสมพนธ

Page 2: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

2 Abstract

In this research, we studies and analyses the data from the Household Socio-Economic Survey 2009 of the Office of National Statistics, Thailand. We use K-means algorithm to cluster the expenditure of the population. By using DB Index and SD Validity, Index, we found that the appropriate number of clusters is three clusters. Then we use association rule technique to determine the relationship between variables. The results show that the association rules are similar among clusters. For example, the average monthly household income is related to the average monthly household cost. Besides, household size is related to number of earners per household. Furthermore, the monthly tobacco cost for a household is associated with a number of members who are entitled to reimbursement for medical expenses.

Keywords: K-means algorithm, association rule 1. บทน า

การท าเหมองขอมล (Data Mining) สามารถแบงอลกอรทมในการท างานไดเปน 2 ประเภทหลก คอ การสรางแบบจ าลองแบบท านาย (Predictive Model, Supervised Model) เนนการจดกลมโดยอาศยผลเฉลยทมอยซงประกอบดวยการจ าแนก (Classification) และการถดถอย (Regression) สวนประเภททสอง คอการสรางแบบจ าลองเชงพรรณนา (Descriptive Model, Unsupervised Model) ในทนอาจเปนการหาความสมพนธ (Association) หรอการจดกลมขอมล (Clustering) หลกการท าเหมองขอมลไดน าไปประยกตใชกบงานหลากหลายดานไดแก ดานธรกจ การแพทย การเงน การธนาคาร การตลาด เปนตน

คณะผวจยไดเลงเหนประโยชนจากการท าเหมองขอมล จงไดท าวจยเรอง “การวเคราะหขอมลทางเศรษฐกจและสงคมของครวเรอนดวยวธการจดกลมและหาความสมพนธ ส าหรบการท าเหมองขอมล” โดยน าขอมลทางเศรษฐกจและสงคมของครวเรอนจากศนยวจยมหาวทยาลยชคาโก -มหาวทยาลยหอการคาไทย (UC-UTCC Research Center) ทไดท าการจดเกบขอมลภาวะเศรษฐกจและสงคมของครวเรอน (Household Socio-Economic Survey) โดยส านกงานสถตแหงชาต ประจ าป พ.ศ. 2552 จ านวน 39,633 รายการ ประกอบดวยขอมลเกยวกบรายได คาใชจาย ภาวะหนสน และทรพยสนของครวเรอน ตลอดจนลกษณะทอยอาศย จากครวเรอนตวอยางในทกจงหวดทวประเทศ ทงในเขตและนอกเขตเทศบาล มาวเคราะหเพอจดกลมขอมลภาวะเศรษฐกจและสงคมของครวเรอนโดยใชอลกอรทมเคมน (K-Means Algorithm) จดกลมขอมลทมลกษณะใกลเคยงกนใหอยในกลมเดยวกน จากนนใชกฎความสมพนธ (Association Rule) ในการหาความสมพนธของขอมลในแตละกลม เพอน าไปใชส าหรบหาตวแปรทมความสมพนธกนตอไป

Page 3: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

3 2. ทฤษฎและงานวจยทเกยวของ 2.1 การจดกลม (Clustering Method)

การจดกลมขอมล คอการรวมกลมของขอมลทมลกษณะเหมอนกน รปแบบและแนวโนมทเหมอนกน โดยเรมจากการหาตวแทนของกลม จากนนท าการเปรยบเทยบขอมลกบตวแทนของแตละกลม ถาขอมลคลายคลงกบตวแทนของกลมไหนกจะถกจดใหอยกลมนน วธในการจดกลมขอมลแบงออกเปน 2 ประเภทใหญ ๆ คอ (Jain et al., 1999)

2.1.1 การจดกลมขอมลแบบแบงสวน (Partitional Clustering) การจดจ าแนกขอมลออกเปนกลมยอยๆ ตามจ านวนกลมทก าหนดโดยพจารณาจากความคลายคลงกน ขอมลทอยในกลมเดยวกนจะมลกษณะเหมอนกนหรอคลายกน สวนขอมลทอยตางกลมกนจะมลกษณะทแตกตางกน เทคนคการจดกลมขอมลแบบแบงสวน ไดแก อลกอรทมเคมน และฟซซซมน (Fuzzy C-Means)

2.1.2 การจดกลมขอมลแบบโครงสรางล าดบชน (Hierarchical Clustering) การจดกลมออกเปนกลมยอยๆ ทมความสมพนธกนระหวางกลมใหญและกลมยอยๆ ลงไป วธการจดกลมขอมลแบบโครงสรางล าดบชนมอย 2 วธ คอการจดกลมจากลางขนบน (Agglomerative, Bottom-up) และการจดกลมขอมลจากบนลงลาง (Divisive, Top-down)

2.2 อลกอรทมเคมน (K-Means Algorithm)

การจดกลมขอมลอลกอรทมเคมนนนมการพฒนาและน าเสนอโดย Mac Queen ในป ค.ศ. 1967 ซงแสดงใหเหนถงอลกอรทมในการจดกลมทสมาชกภายในกลม จะมระยะใกลจดศนยกลางหรอตวแทนของกลม (Mean) โดยวธการจดกลมขอมลอลกอรทมเคมนนนจะประกอบดวยการก าหนดจ านวนกลมเรมตน ก าหนดตวแทนกลม การจดขอมลแตละตวเขากลม และสดทายคอ การปรบปรงตวแทนในแตละกลม ปญหาทพบคอการก าหนดจ านวนจดเรมตน ซงสงผลตอประสทธภาพของการจดกลม หรอการทกลมบางกลมนนมจ านวนสมาชกนอยเกนหรออาจจะไมมสมาชกในกลมเลย จงไดมการก าหนดกฎเกณฑวากลมทจะอยในรอบถดไปไดนนจะตองมสมาชกอยไมนอยกวาคาคงทคาหนงทก าหนดขนมา ขนตอนวธการจดกลมขอมลอลกอรทมเคมน (Tan et al., 2006) มขนตอนดงน

1) ก าหนดจ านวนกลมทตองการ โดยก าหนดให K เทากบจ านวนกลมทตองการจดกลม และเลอกจดศนยกลางของกลมเรมตน

2) ค านวณหาตวแทนกลม หรอจดศนยกลาง (Centroid) ในแตละกลม 3) จดกลมขอมลใหมโดยพจารณาจากคาความใกลชดหรอระยะหางของขอมลในกลมกบ

ตวแทนของกลมตางๆ วาขอมลนนสมควรทจะอยกลมใด

Page 4: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

4

4) ท าการปรบปรงการจดกลมโดยยอนกลบไปท าขอ 2 และจะหยดเมอขอมลสมาชกในกลมแตละกลมนนไมมการเปลยนแปลงแลว

การจดกลมขอมลโดยอลกอรทมเคมนตองการพนททใชในการท างานนอย เนองจากเกบเฉพาะขอมล และจดศนยกลางเทานน ดงนนจงตองการพนทเปน O((m + K)n) เมอ n คอจ านวนขอมลทงหมด และ m คอจ านวนของตวแปรทใช สวนเวลาทใชในการประมวลผลจะเปนสมการเชงเสน ในรปของจ านวนขอมล ดงนนเวลาทตองการใชเปน O(I * K * m * n) เมอ I เปนจ านวนรอบทใชเมอตวแทนของกลมมการเปลยนแปลง และ K คอจ านวนกลมทตองการจดกลม และในกรณทเราก าหนดคาตวแปรใหคงท เวลาทใชจะเปน O(n) (Tan et al., 2006)

รปท 1 แสดงขนตอนการท างานของขนตอนวธการจดกลมขอมลอลกอรทมเคมน ทมา: Tan et al. (2006)

2.3 กฎความสมพนธ (Association Rule) กฎความสมพนธเปนเทคนคหนงของการท าเหมองขอมล โดยหลกการท างานของวธนคอการคนหาความสมพนธของขอมลจากขอมลขนาดใหญทมอยเพอน าไปใชในการวเคราะห หรอท านายปรากฏการณตางๆ หรอจากการวเคราะหการซอสนคาของลกคาเรยกวา “การวเคราะหแบบตะกราสนคา (Market Basket Analysis)” ซงประเมนจากขอมลทรวบรวมไว ผลการวเคราะหทไดจะเปนค าตอบของปญหา ซงการวเคราะหแบบนเปนการใช “กฎความสมพนธ” เพอหาความสมพนธของขอมล

Algorithm Basic K-Means algorithm. 1: Select K points as initial centroids. 2: repeat 3: From k clusters by assigning each point to its closest centroid. 4: Recomputed the centroid of each cluster. 5: until Centroids do not change.

Page 5: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

5 การหากฎความสมพนธ

𝐼 = {𝑖1,𝑖2, … , 𝑖𝑛}

𝐷 = {𝑡1,𝑡2, … , 𝑡𝑚} เมอ I คอเซตไอเทม ทมไอเทมทงหมดเปนสมาชก ซงในทนอาจเปนชอสนคาหรอหนวย

พนฐานทจะน ามาใช T คอทรานแซคชนทเปนเซตยอยของเซตไอเทม D คอเซตขอมลทมทรานแซคชนทกตวเปนสมาชก

n คอจ านวนไอเทม m คอจ านวนทรานแซคชน

สามารถนยามกฎความสมพนธไดวา YX เมอ IX , IY และ YX นอกจากนกฎความสมพนธทกกฎจะประกอบดวยคาสนบสนน (Support) และคาความมนใจ

(Confidence) ซงมนยามดงน คาสนบสนนของ คอ สดสวนของจ านวนทรานแซคชนทม X และ Y ปรากฏอย ตอ

จ านวนทรานแซคชนทงหมดในชดขอมล

Support, N

YXYXS

)()(

(1)

คาความเชอมนของ คออตราสวนของจ านวนทรานแซคชนทมทง X และ Y ตอ

จ านวนทรานแซคชนทม X

YX

YX

Confidence, )(

)()(

X

YXYXC

(2)

เมอ

N

คอ จ านวนทรานแซคชนทงหมด

)(X คอ จ านวนครงทเกด X

Page 6: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

6

คาสนบสนนถกน ามาใช เพอการก าจดกฎความสมพนธทไมนาสนใจ กฎทประกอบดวยไอเทมเซตซงมคาสนบสนนนอย หมายถงไอเทมเซตนนๆ ไมเปนทนาสนใจ หรอเกดในจ านวนนอย ดงนนกฎความสมพนธทมไอเทมเซตเหลานนปรากฏอย จงไมถกสนใจ ในขณะทคาความเชอมนใชเพอแสดงถงความนาเชอถอของกฎ ยงมคาความเชอมนสงนนหมายความวาไอเทมเซตนนเกดขนรวมกบไอเทมเซตอกกลมหนงมากขนเทานน

คาสหสมพนธหรอหนวยวดความสมพนธ (Correlation Analysis หรอ Lift) หมายถง คาทบงบอกถงความสมพนธทนาสนใจระหวางเหตการณและผลทตามมา ค านวณไดดงน

(3)

โดยท P(B|A) = P(A B)/P(A) A คอ เหตการณทเกดกอน (Antecedent) หรอไอเทมทอยทางซาย B คอ สงทเกดขนตามมา (Consequence) หรอไอเทมทอยทางขวา P(A) คอ จ านวนครงทเกดเหตการณ A P(B) คอ จ านวนครงทเกดเหตการณ B

ผลลพธทไดจากการวเคราะหคาสหสมพนธ คอ • ถาคาสหสมพนธมคานอยกวา 1 หมายถงการทเกดเหตการณ A ไมไดสงเสรมใหเกด B จรง

• ถาคาสหสมพนธมากกวา 1 หมายถงการทเกดเหตการณ A สงเสรมใหเกด B จรง

• ถาคาสหสมพนธมเทากบ 1 หมายถง การเกดเหตการณ A ไมไดมความสมพนธแตอยางใด

กบการเกด B ซงถอวาเปนอสระตอกน

ตวอยางและความหมายของกฎความสมพนธ

มลคาทรพยสนทเปนตวเงนของครวเรอน นอยกวา 10,001 บาท ไมมสมาชกทมสทธเบกคา

รกษาพยาบาล ดวยคาสนบสนนเทากบ รอยละ 30 คาความเชอมน รอยละ 93 หมายความวา เมอครวเรอนมมลคาทรพยสนทเปนตวเงนนอยกวา 10,001 บาท แลวครวเรอนจะไมมสมาชกทมสทธเบกคารกษาพยาบาล โดยโอกาสทครวเรอนในกลมท 1 นจะมมลคาทรพยสนทเปนตวเงนนอยกวา 10,001 บาท รอยละ 31 หากเมอครวเรอนในกลมท 1 มลคาทรพยสนทเปนตวเงนนอยกวา 10,001 บาท ตามกฎความสมพนธท 1 นกจะไมมสมาชกทมสทธเบกคารกษาพยาบาลดวยรอยละ 93

)(

)|(

)()(

)(,

BP

ABP

BPAP

BAPcorr BA

Page 7: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

7 2.4 งานวจยทเกยวของ

ไชยยศ และสมชาย (2554) น าเทคนคการท าเหมองขอมลมาใชเพอศกษาความสมพนธของนกกอลฟทมาใชบรการโดยใชอลกอรทมอพรโอรในการสรางกฎความสมพนธ จากนนน าไปวเคราะหการถดถอย (Regression Analysis) ซงถกใชเปนแนวทาง เพอการพยากรณการจดสรรงบประมาณรายจายประจ าป การจดใชทรพยากรตางๆของสนามในปตอไป

วาทน นยเพยร และคณะ (2552) น าเสนอการเปรยบเทยบอลกอรทมการจดกลมขอมล โดยใชขอมลปรมาณโอโซนจากการตรวจวดประจ าวน ซงเปนตวแปรเชงปรมาณแบบอตราสวน มคาตอเนองและท าการคดเลอกขอมล แบบ CfsSubsetEval จ านวน 6 แอททรบวต และพจารณาจากผวจยจ านวน 24 แอททรบวต ผลปรากฏวาอลกอรทมเคมน และ XMeans เปนแบบจ าลองทใหผลลพธดทสด เมอเทยบกบจ านวนกลมของขอมลจรง

สรธร เจรญรตน, ชฎารตน พพฒนนนท (2556) ใชเทคนคการท าเหมองขอมล โดยใชอลกอรทมของตนไมการตดสนใจ C4.5 เพอสรางแบบจ าลองการจ าแนกขอมล ตามประเภทอตสาหกรรม คอ 1) การเกษตรและประมง 2) การผลต 3 ) การคาและบรการ เพอหาปจจยทมผลตอรายไดของประชากร ผลการวจยพบวาปจจยทมผลตอรายไดของประชากรในกลมท 1 และ กลมท 3 คออาชพ กลมท 2 คอประเภทการจางงาน

เสาวณย ไทยรงโรจน, นายวาทตร รกษธรรม (2549) ไดน าเสนอการวเคราะห และศกษาพฤตกรรมการบรโภคของครวเรอนไทย โดยใชขอมลการส ารวจภาวะเศรษฐกจและสงคมของครวเรอน พ.ศ. 2547 ซงจดท าโดยส านกงานสถตแหงชาต พบวาครวเรอนไทยมคาใชจายเพมขนเฉลยรอยละ 5.4 ตอป แตพฤตกรรมการบรโภคเมอพจารณาจากสดสวนคาใชจายพบวาไมมการเปลยนแปลงมาก คาใชจายดานอาหารเครองดมยงคงมสดสวนสงสด แตลดลงเมอเทยบกบป พ.ศ. 2545 ขณะทสดสวนคาใชจายเกยวกบยานพาหนะและคาบรการสอสารมความส าคญเปนล าดบทสอง นอกจากนนมคาใชจายการบรโภคเครองดมแอลกอฮอลมสดสวนเพมขน สวนคาใชจายดานการศกษาและรกษาพยาบาลมสดสวนลดลง

Barth และคณะ (2003) ศกษาเปรยบเทยบวธการจดกลมขอมลโดยใช 8 วธการ ประกอบดวยเคมนอลกอรทม, แผนผงการจดระเบยบตนเอง (Self-Organizing Maps), Neural Gas, Hardel, C-Means, Maximin, CLARA และ Ufel โดยใชขอมลจากการจ าลองและขอมลจรง การวดประสทธภาพใช Weighted Jaccard (WJC) และ Correlation Coefficient (CC) ผลการทดลองพบวาเคมนอลกอรทม และ Neural Gas เปนวธทดทสด เนองจากใหคา WJC และ CC สงสด

Halkidi และคณะ (2001) ศกษากระบวนการในการจดกลม หลกการพนฐานของการจดกลม รวมถงวธในการวดประสทธภาพ โดยท าการเปรยบเทยบวธในการวดประสทธภาพ เพอหาจ านวนกลมทเหมาะสม ประกอบดวย DB Index, RMSSTD, RS และ SD Validity Index ใชขอมลทดสอบ 5 ชด โดยท

Page 8: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

8 ม 4 ชดเปนขอมลของขอมลมาตรฐาน สวนอก 1 ชดเปนขอมลจรง จากผลการทดลองพบวา SD Validity Index สามารถใหผลถกตองถง 3 ใน 5 ของขอมลทดสอบ

Pakhira และคณะ (2004) น าเสนอวธในการวดประสทธภาพทชอวา PBM-Index โดยท าการเปรยบเทยบกบวธ DB Index, XB-Index, Dunn’s Index ใชขอมลทดสอบ 8 ชดซงเปนขอมลมาตรฐานทรจ านวนกลมแลวจากผลการทดลองพบวาวธทน าเสนอคอ PBM-Index สามารถหาจ านวนกลมทเหมาะสมไดถกตองทงหมด 3. การวเคราะหขอมลทางเศรษฐกจและสงคมของครวเรอนดวยวธการแบงกลมและหาความสมพนธ

3.1 ขอมลส าหรบท าการวจย (Data set) ขอมลส าหรบท าการวจยนคอขอมลการส ารวจภาวะเศรษฐกจและสงคมของครวเรอน ซงเกบ

รวบรวมขอมลเกยวกบรายได คาใชจาย ภาวะหนสน และทรพยสนของครวเรอน ตลอดจนลกษณะทอยอาศย โดยท าการเกบรวบรวมขอมลทกเดอน รายการจากครวเรอนตวอยางในทกจงหวดทงในเขตและนอกเขตเทศบาล ป พ.ศ. 2552 จ านวน 39,633

3.2 ขนตอนการทดลอง ขนตอนการทดลองในงานวจยนใชเทคนคของการท าเหมองขอมลโดยใชอลกอรทมเคมน ใน

การจดกลมขอมลทมลกษณะใกลเคยงกนใหอยในกลมเดยวกน จากนนจะใชกฎความสมพนธในการหาความสมพนธของขอมลในแตละกลม เพอน าไปใชในการหาปจจยทมความสมพนธกนตอไป ดงแสดงในรปท 2

Page 9: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

9

รปท 2 แสดงภาพโครงสรางการท างานของงานวจย

3. Data Preprocessing

Cluster by using K-Means Algorithm

SES

SD validity Index, PBM and DB index

Measurement 4.1 Clustering Method

4.2 Association Rule

1. Business Understanding

2. Data Understanding

5. Evaluation

6. Deployment

4. Modeling

Page 10: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

10

1. การท าความเขาใจธรกจ (Business Understanding) ปจจบนนสภาพเศรษฐกจของประเทศไทยอยในสภาวะทมการแขงขนสง ซงมผลกระทบตอ

ชวตความเปนอยของประชากร การใชจายเปนปจจยหนงทมผลตอการด ารงชวตของประชากร ในงานวจยนจะท าการรวบรวมขอมลเพอจดกลมขอมลครวเรอนของประชากร และหาความสมพนธของขอมลเพอหาปจจยทมผลตอการใชจายของประชากรในประเทศไทย

2. การท าความเขาใจขอมล (Data Understanding) คณะผวจยท าการศกษาและท าความเขาใจขอมลทไดท าการจดเกบขอมลภาวะเศรษฐกจและ

สงคมของครวเรอน เชน ชอตวแปร คาทจดเกบ ความหมาย และชนดของขอมล เปนตน 3. การเตรยมขอมล (Data Preprocessing)

ขนตอนนจะท าการรวบรวมขอมลการส ารวจภาวะเศรษฐกจและสงคมของครวเรอน ในระยะเวลา 1 ป (พ.ศ. 2552) มาจดเกบลงฐานขอมล MySQL และท าการคดเลอกขอมลทตองการน ามาใชประโยชน จากนนจะท าการท าความสะอาดขอมล ท าการตดขอมลทไมครบถวนทง และแปลงขอมลใหอยในรปทสามารถน าไปใชประมวลผลได ซงในขนตอนนตองท าการแปลงขอมลทจะน าไปใชใหอยในรปคะแนนมาตรฐาน (Standard Scores) เพอตรวจสอบคาผดปกตของขอมล (Outliers)

คาผดปกต คอขอมลทมคาแตกตางจากกลม เชน ขอมลอายของคนคอ 250 ป เงนเดอนเฉลยคอ 3,000,000 บาท คาใชจายตอเดอนคอ 5,400,000 บาท เปนตน ซงคาผดปกตมโอกาสเกดขนได 2 ประการคอ 1) การจดบนทกหรอเกบขอมลมความคลาดเคลอน 2) กลมตวอยางทเกบรวบรวมขอมล มความแตกตางไปจากกลมอนจรง ซงการเกดคาผดปกตประการแรกนน สามารถเกดขนไดเสมอ จงตองท าการตรวจสอบขอมลใหถกตองกอนน าขอมลไปใชในขนตอนตอไปโดยใช คะแนนมาตรฐานซงสามารถค านวณไดดงน

เมอ Zi คอ คะแนนมาตรฐานของตวแปร Xi คอ ขอมลดบ

คอ คาเฉลยของขอมล S.D. คอ สวนเบยงเบนมาตรฐาน หลงจากก าจดขอมลทมคาผดปกตแลว ขนตอนตอไปจะท าการแปลงขอมลเพอเปลยนคาขอมลให

อยในรปมาตรฐาน (Data Normalization) เพอลดความเหลอมล าของขอมล และท าใหขอมลอยในชวงเดยวกน คณะผวจยเลอกใชวธ Min-Max Normalization ซงเปนเทคนคทตองรคาสงสดและคาต าสดของขอมล และจะท าใหขอมลทไดนนอยในชวงใหมทก าหนด โดยปกตแลวจะก าหนดใหอยในชวง 0 และ 1

..DS

XXZ i

i

(4)

Page 11: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

11

xxx

xx

x newnewnewv

vnew min_)min_max_.(minmax

min_

เมอ v คอ คาของขอมล minx คอ คาทนอยทสดของชดขอมลเดม

maxx คอ คาทมากทสดของชดขอมลเดม new_minx คอ คาทนอยทสดชวงชดขอมลใหม new_maxx คอ คาทมากทสดชวงชดขอมลใหม

หลงจากท าความสะอาดและแปลงขอมลเรยบรอยแลวจะไดขอมลทน ามาใชในงานวจยนจ านวนทงหมด 39,633 รายการ

4. การพฒนาตวแบบ (Modeling) 4.1 การจดกลมขอมลโดยใชอลกอรทมเคมน

ขนตอนนจะท าการจดกลมขอมลโดยคณะผวจยไดเลอกใชเทคนคการจดกลมขอมลอลกอรทมเคมนเขามาใชในการทดลอง เนองจากอลกอรทมเคมนเหมาะส าหรบการจดกลมเมอมขอมลจ านวนมาก เปนอลกอรทมทงายตอความเขาใจ และใชเวลาในการประมวลขอมลไมมากนก ขนตอนในการท างานจะหาจ านวนกลมทเหมาะสมในการจดกลมตงแต 2-10 กลม และท าการหาจ านวนกลมทดทสดโดยใชคา SD Validity Index, PBM-Index และ DB index เปนตวตดสน จากนนจงน าจ านวนกลมทไดไปเปนขอมลน าเขาเพอใชในการจดกลมขอมลตอไป

4.2 การหาความสมพนธโดยใชเทคนคกฎความสมพนธ

ในขนตอนนจะน าขอมลทผานการจดกลมโดยอลกอรทมเคมน มาท าการหาความสมพนธ โดยใชเทคนคกฎความสมพนธทชอวาอลกอรทมอพรโอรในโปรแกรม Weka ซงกฎความสมพนธทไดพจารณาจากคาสนบสนน คาความมนใจ และคาสหสมพนธ จากนนน าขอมลทไดไปวเคราะหหาความสมพนธของการใชจายของประชากรตอไป และกอนทจะน าขอมลเขาสโปรแกรม Weka เพอใชในการสรางกฎความสมพนธ

5. การแปลผลและการประเมนผล (Evaluation) เปนการประเมนประสทธภาพของผลลพธจากแบบจ าลองวเคราะหขอมลวาครอบคลม สามารถตอบเปาหมายและวตถประสงคทตงไวในขนตอนแรกหรอไม

6. การน าไปใช (Deployment) เปนการน าผลลพธทไดจากการงานวจยไปใชประโยชนตอไป

(5)

Page 12: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

12 3.3 ตวแปรทใชในงานวจย

การจดกลมและหาความสมพนธของขอมลการส ารวจภาวะเศรษฐกจและสงคมของครวเรอน ใชตวแปรดงตอไปน ตารางท 1 ตวแปรทใชในการจดกลมและหาความสมพนธของขอมลการส ารวจภาวะเศรษฐกจและสงคมของครวเรอน

รายละเอยดของคาในแตละตวแปร ตวแปรท 1 ภาค (Reg) แบงออกเปน 5 กลม คอ กลมท 1 คอ กรงเทพมหานครและปรมณฑล กลมท 2 คอ ภาคกลาง กลมท 3 คอ ภาคเหนอ กลมท 4 คอ ภาคใต กลมท 5 คอ ภาคตะวนออกฉยงเหนอ

ตวแปรท 2 ระดบการศกษาสงสดของหวหนาครวเรอน (Education-Level) แบงออกเปน 6 กลม กลมท 1 คอ ต ากวามธยมศกษา กลมท 2 คอ มธยมศกษา กลมท 3 คอ อนปรญญา กลมท 4 คอ ปรญญาตร กลมท 5 คอ สงกวาปรญญาตร กลมท 6 คอ การศกษาอนๆ

ตวแปรท 3 ขนาดของครวเรอน (Household -Size)แบงออกเปน 4 กลม คอ กลมท 1 คอ 1- 2 คน กลมท 2 คอ 3- 4 คน กลมท 3 คอ 5- 7 คน กลมท 4 คอ 8 คน ขนไป

ตวแปรท 4 จ านวนผท างานหารายได (No-Earners) แบงออกเปน 4 กลม คอ กลมท 1 คอ ไมม กลมท 2 คอ 1 คน กลมท 3 คอ 2-3 คน กลมท 4 คอ 4 คน ขนไป

ตวแปรท 5 จ านวนสมาชกทท างานรบคาจางและเงนเดอน (No-Wages) แบงออกเปน 4 กลม คอ กลมท 1 คอ ไมม กลมท 2 คอ 1 คน กลมท 3 คอ 2 คน กลมท 4 คอ 3 คน ขนไป

ตวแปรท 6 จ านวนสมาชกทมสทธเบกคารกษาพยาบาล (Welfare) แบงออกเปน 4 กลม คอ กลมท 1 คอ ไมม กลมท 2 คอ 1 คน กลมท 3 คอ 2-3 คน กลมท 4 คอ มากกวา 3 คน ขนไป

ตวแปรท 7 จ านวนสมาชกทไดรบบตรประกนสขภาพ (Universal-Health) แบงออกเปน 4 กลม คอ กลมท 1 คอ ไมม กลมท 2 คอ 1 คน กลมท 3 คอ 2-3 คน กลมท 4 คอ มากกวา 3 คนขนไป

ตวแปรท 8 จ านวนสมาชกทมบตรรบรองสทธการรกษาพยาบาล โดยใชบตรประกนสงคม (Medical-Card) แบงออกเปน 4 กลม คอ กลมท 1 คอ ไมม กลมท 2 คอ 1 คน กลมท 3 คอ 2-3 คน กลมท 4 คอ มากกวา 3 คนขนไป

Page 13: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

13

รายละเอยดของคาในแตละตวแปร

ตวแปรท 9 สถานะภาพทางเศรษฐกจสงคมของครวเรอน (ชนทางเศรษฐกจ) (Socio-Economic) แบงออกเปน 4 กลม คอ กลมท 1 คอ ผถอครองท าการเกษตร เชน ปลกพช/เลยงสตว/เพาะเลยง ผท าประมง ปาไม ลาสตว เกบของปา บรการทางการเกษตร กลมท 2 คอ ผด าเนนธรกจของตนเองทไมใชเกษตรกร กลมท 3 คอ ลกจาง เชน ผปฏบตงานวชาชพ นกวชาการและนกบรหาร คนงานเกษตร คนงานทวไป เสมยน พนกงานขาย และใหบรการ ผปฏบตงานในกระบวนการผลต กลมท 4 คอ ผไมไดปฏบตงานเชงเศรษฐกจ

ตวแปรท 10 รายไดเฉลยตอเดอนของครวเรอน (Income) แบงออกเปน 5 กลม คอ กลมท 1 คอ รายไดต ากวา 10,001 บาท กลมท 2 คอ รายได 10,001-20,000 บาท กลมท 3 คอ รายได 20,001-50,000 บาท กลมท 4 คอ รายได 50,001-100,000 บาท กลมท 5 คอ รายไดมากกวา 100,000 บาท

ตวแปรท 11 คาใชจายเฉลยตอเดอนของครวเรอน (Month-Ex) แบงออกเปน 4 กลม คอ กลมท 1 คอ คาใชจายต ากวา 10,001 บาท กลมท 2 คอ คาใชจาย 10,001-20,000 บาท กลมท 3 คอ คาใชจาย 20,001-50,000 บาท กลมท 4 คอ คาใชจายมากกวา 50,000 บาท

ตวแปรท 12 คาใชจายอาหารและเครองดมตอเดอนของครวเรอน (Food-Ex) แบงออกเปน 5 กลม คอ กลมท 1 คอ นอยกวา 2,001 บาท กลมท 2 คอ 2,001-4,500 บาท กลมท 3 คอ 4,501-7,000 บาท กลมท 4 คอ 7,001-10,000 บาท กลมท 5 คอ มากกวา 10,000 บาท

ตวแปรท 13 คาใชจายยาสบตอเดอนของครวเรอน (Tobacco-Ex) ประกอบดวย ยาสบ หมาก ยานตถ และอนๆ แบงออกเปน 4 กลม คอ กลมท 1 คอ ไมมคาใชจาย กลมท 2 คอ 1-200 บาท กลมท 3 คอ 201-500 บาท กลมท 4 คอ มากกวา 500 บาท

ตวแปรท 14 คาใชจายเพอการอปโภคบรโภคตอเดอนของครวเรอน (Conex-Ex) แบงออกเปน 4 กลม คอ กลมท 1 คอ นอยกวา 5,001 บาท กลมท 2 คอ 5,001-12,000 บาท กลมท 3 คอ 12,001-24,000 บาท กลมท 4 คอ มากกวา 24,000 บาท

ตวแปรท 15 คาใชจายเพอทอยอาศย เครองแตงบานตอเดอนของครวเรอน (House-Ex) แบงออกเปน 4 กลม คอ กลมท 1 นอยกวา 2,001 บาท กลมท 2 คอ 2,001-4,000 บาท กลมท 3 คอ 4,001-8,000 บาท กลมท 4 คอ มากกวา 8,000 บาท

ตวแปรท 16 คาใชจายเวชภณฑและคาตรวจรกษาพยาบาลตอเดอนของครวเรอน (Medical-Ex) แบงออกเปน 5 กลม คอ กลมท 1 คอ ไมมคาใชจาย กลมท 2 คอ 1-500 บาท กลมท 3 คอ 501-1,000 บาท กลมท 4 คอ 1,001-1,500 บาท กลมท 5 คอ มากกวา 1,500 บาท

Page 14: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

14

รายละเอยดของคาในแตละตวแปร

ตวแปรท 17 คาใชจายการเดนทางและการสอสารตอเดอนของครวเรอน (Transport-Ex) แบงออกเปน 5 กลม คอ กลมท 1 คอ ไมมคาใชจาย กลมท 2 คอ 1-2,000 บาท กลมท 3 คอ 2,001-4,000 บาท กลมท 4 คอ 4,001-8,000 บาท กลมท 5 คอ มากกวา 8,000 บาท

ตวแปรท 18 คาใชจายเรองการศกษาตอเดอนของครวเรอน (Education-Ex) แบงออกเปน 5 กลม คอ กลมท 1 คอ ไมมคาใชจาย กลมท 2 1-400 บาท กลมท 3 คอ 401-800 บาท กลมท 4 คอ 801-1,600 บาท กลมท 5 คอ มากกวา 1,600 บาท

ตวแปรท 19 คาใชจายเบดเตลด ตอเดอนของครวเรอน (Special-Ex) เปนผลรวมของคาใชจายเครองนงหมและรองเทา คาใชจายสวนบคคล คาใชจายการบนเทง การอานและกจกรรมทางศาสนา และ คาใชจายการจดงานพธ ในโอกาสพเศษ แบงออกเปน 5 กลม คอ กลมท 1 คอ นอยกวา 500 บาท กลมท 2 คอ 501-1,000 บาท กลมท 3 คอ 1,001-1,500 บาท กลมท 4 คอ 1,501-2,000 บาท กลมท 5 คอ มากกวา 2,000 บาท

ตวแปรท 20 คาใชจายทไมเกยวกบการอปโภคบรโภคตอเดอนของครวเรอน (NonCon-Ex) ประกอบดวยภาษ/ธรรมเนยม/คาปรบ คาสมาชกกลมอาชพ เงน/สงของทสงใหบคคลนอกครวเรอน บรจาคเงน/สงของใหแกองคกรตางๆ เงนท าบญ/เงนชวยเหลออนๆ คาเบยประกนภย/ทรพยสน/ประกนชวต/เงนฌาปนกจศพ เงนสมทบประกนสงคม คาซอสลากกนแบง/หวยของรฐ/และการพนนอนๆ ดอกเบยจาย/ดอกเบยแชร คาใชจายอน ๆแบงออกเปน 5 กลม คอ กลมท 1 คอ มคาใชจาย กลมท 2 คอ 1-1,000 บาท กลมท 3 คอ 1,001-3,000 บาท กลมท 4 คอ 3,001-6,000 บาท กลมท 5 คอ มากกวา 6,000 บาท

ตวแปรท 21 มลคาทรพยสนทเปนตวเงนของครวเรอน (Financial-Asset) แบงออกเปน 5 กลม คอ กลมท 1 คอ นอยกวา 10,001 บาท กลมท 2 คอ 10,001-30,000 บาท กลมท 3 คอ 30,001-50,000 บาท กลมท 4 คอ 50,001-100,000 บาท กลมท 5 คอ มากกวา 100,000 บาทขนไป

*หมายเหต - การแบงกลมตวแปรในงานวจยนใชหลกเกณฑตามส านกงานสถตแหงชาต - ตวแปรททางคณะผวจยน าขอมลของส านกงานสถตแหงชาตมาปรบใช เพอใหเหมาะสม

กบงานวจย โดยพจารณาจากฮสโตแกรม (Histograms) เพอหาการกระจายของขอมล ตวแปรเหลานไดแก อายของหวหนาครวเรอน รายไดเฉลยตอเดอนของครวเรอน คาใชจายตางๆ และมลคาทรพยสนทเปนตวเงนของครวเรอน

Page 15: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

15 4. ผลการวจย 4.1 การจดกลมขอมลการส ารวจภาวะเศรษฐกจและสงคมของครวเรอน ตามคาใชจายของครวเรอน

ขนตอนนจะท าการจดกลมขอมลภาวะเศรษฐกจและสงคมของครวเรอน ตามคาใชจายของครวเรอนโดยใชอลกอรทมเคมน ซงมขอมลน าเขาจ านวน 39,633 รายการ โดยแบงออกเปน 2 ขนตอนยอย คอขนตอนการหาจ านวนกลมทเหมาะสมในการจดกลม และขนตอนการจดกลมขอมล

4.1.1 การหาจ านวนกลมทเหมาะสมในการจดกลม

ตารางท 2 ผลการวดประสทธภาพการจดกลมขอมลภาวะเศรษฐกจและสงคมของครวเรอน โดยใช อลกอรทมเคมนตงแต 2 - 10 กลม

จ านวนกลม (Cluster) SD Validity Index PBM Index DB Index 2 97.909 0.0037 1.636 3 84.464 0.0002 1.131 4 99.103 0.0020 1.656 5 93.014 0.0001 1.389 6 92.189 0.0002 1.188 7 94.357 0.0001 1.121 8 99.761 0.0000 1.149 9 145.625 0.0001 1.239 10 137.605 0.0001 1.270

จากตารางท 2 แสดงใหเหนถงคา SD Validity Index คา PBM Index และคา DB Index เมอท าการจดกลมขอมลโดยใชอลกอรทมเคมน คณะผวจยเลอกจ านวนกลมทเหมาะสมเทากบ 3 กลม เนองจากมตววดประสทธภาพถง 2 ใน 3 ตวใหผลดเมอจ านวนกลมเทากบ 3 กรณทมคา SD Validity และ คา DB Index มคานอย แสดงใหเหนถงการจดกลมทด ในทางตรงกนขาม คา PBM-Index ควรจะมคาสง แสดงถงการจดกลมทด

4.1.2 การจดกลมขอมล เมอหาจ านวนกลมทเหมาะสมในการจดกลมไดเทากบ 3 กลม จากนนไดท าการจดกลมขอมล โดย

จ าแนกตาม 8 ตวแปรใชจดกลมดงตารางท 3

Page 16: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

16 ตารางท 3 แสดงรายละเอยดผลการจดกลม โดยจ าแนกตามตวแปรหลก 8 ตวแปรทใชในการจดกลม

ตวแปรทใชจดกลม จ านวนครวเรอนในแตละกลม (ครวเรอน(รอยละ))

กลมท 1 กลมท 2 กลมท 3

3,084(7.78) 27,923(70.45) 8,626(21.77)

คาใชจายอาหารและเครองดมตอเดอนของครวเรอน

นอยกวา 2,001 บาท 40(1.30) 3,110(11.14) 16(0.19)

2,001-4,500 บาท 710(23.02) 14,856(53.20) 886(10.27)

4,501-7,000 บาท 1,219(39.53) 8,160(29.22) 2,826(32.76)

7,001-10,000 บาท 791(25.65) 1,699(6.08) 3,086(35.78)

มากกวา 10,000 บาท 324(10.51) 98(0.35) 1,812(21.01) คาใชจายยาสบตอเดอนของครวเรอน

ไมม 0(0.00) 19,341(69.27) 7,257(84.13)

1-200 บาท 0(0.00) 7,445(26.66) 852(9.88)

201-500 บาท 1,127(36.54) 1,137(4.07) 488(5.66)

มากกวา 500 บาท 1,957(63.46) 0(0.00) 29(0.34) คาใชจายทไมเกยวกบการอปโภคบรโภคตอเดอนของครวเรอน

ไมม 19(0.62) 411(1.47) 9(0.10) 1-1,000 บาท 1,370(44.42) 20,010(71.66) 1,570(18.20) 1,001-3,000 บาท 1,082(35.08) 5,621(20.13) 3,030(35.13) 3,001-6,000 บาท 431(13.98) 1,552(5.56) 2,219(25.72) มากกวา 6,000 บาท 182(5.90) 329(1.18) 1,798(20.84)

คาใชจายเพอทอยอาศย เครองแตงบานตอเดอนของครวเรอน

นอยกวา 2,001 บาท 998(32.36) 15,546(55.67) 766(8.88)

2,001-4,000 บาท 1,471(47.70) 10,158(36.38) 3,659(42.42)

4,001-8,000 บาท 556(18.03) 2,007(7.19) 3,357(38.92)

มากกวา 8,000 บาท 59(1.91) 212(0.76) 844(9.78) คาใชจายเวชภณฑและคาตรวจรกษาพยาบาล ตอเดอนของครวเรอน

ไมมคาใชจาย 1,207(39.14) 13,177(47.19) 3,427(39.73)

1-500 บาท 1,554(50.39) 12,774(45.75) 3,595(41.68)

501-1,000 บาท 197(6.39) 1,113(3.99) 715(8.29)

1,001-1,500 บาท 53(1.72) 382(1.37) 297(3.44) มากกวา 1,500 บาท 73(2.37) 477(1.71) 592(6.86)

Page 17: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

17 ตารางท 3 (ตอ) แสดงรายละเอยดผลการจดกลม โดยจ าแนกตามตวแปรหลก 8 ตวแปรทใชในการจดกลม

ตวแปรทใชจดกลม จ านวนครวเรอนในแตละกลม (ครวเรอน(รอยละ))

กลมท 1 กลมท 2 กลมท 3

3,084(7.78) 27,923(70.45) 8,626(21.77)

คาใชจายการเดนทางและการสอสารตอเดอนของครวเรอน

ไมม 24(0.78) 1,612(5.77) 1(0.01) 1-2,000 บาท 1,296(42.02) 19,748(70.72) 818(9.48) 2,001-4,000 บาท 907(29.41) 4,911(17.59) 1,808(20.96) 4,001-8,000 บาท 520(16.86) 1,404(5.03) 2,726(31.60) มากกวา 8,000 บาท 337(10.93) 248(0.89) 3,273(37.94)

คาใชจายเรองการศกษาตอเดอนของครวเรอน

ไมมคาใชจาย 1,537(49.84) 15,734(56.35) 3,437(39.84)

1-400 บาท 1,064(34.50) 9,871(35.35) 2,092(24.25)

401-800 บาท 248(8.04) 1,358(4.86) 1,051(12.18) 801-1,600 บาท 164(5.32) 757(2.71) 1,071(12.42)

มากกวา 1,600 บาท 71(2.30) 203(0.73) 975(11.30) คาใชจายเบดเตลดตอเดอนของครวเรอน

นอยกวา 500 บาท 580(18.81) 11,858(42.47) 364(4.22) 501-1,000 บาท 870(28.21) 8,323(29.81) 1,068(12.38) 1,001-1,500 บาท 604(19.58) 3,887(13.92) 1,321(15.31) 1,501-2,000 บาท 380(12.32) 1,939(6.94) 1,284(14.89) มากกวา 2,000 บาท 650(21.08) 1,916(6.86) 4,589(53.20)

4.2 ผลการวเคราะหความสมพนธของตวแปรในครวเรอนทง 3 กลม

ในขนตอนการหาความสมพนธของตวแปรในครวเรอน ไดท าการก าหนดคาสนบสนนขนต า คาความเชอมนขนต าในแตละกลม และพจารณาเฉพาะหนวยวดความสมพนธทมคามากกวา 1 ขนไป ผลการวจยพบวากลมท 1 ไดกฎความสมพนธทงสนจ านวน 66 กฎ กลมท 2 ไดกฎความสมพนธทงสนจ านวน 60 กฎ และกลมท 3 ไดกฎความสมพนธทงสนจ านวน 61 กฎ โดยไดน าเสนอกฎความสมพนธทนาสนใจดงแสดงในตารางท 4 ตารางท 5 และ ตารางท 6

Page 18: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

18 ตารางท 4 ตวอยางกฎความสมพนธของตวแปรในครวเรอนกลมท 1 (ก าหนดคาสนบสนนขนต าเทากบรอย

ละ 30 และคาความเชอมนขนต าเทากบรอยละ 60)

กฎ (Rule)

คาสนบสนน (Support)

(รอยละ)

คาความเชอมน (Confidence)

(รอยละ) 1 มลคาทรพยสนทเปนตวเงนของครวเรอน นอยกวา 10,001 บาท

ไมมสมาชกทมสทธเบกคารกษาพยาบาล 31 93

2 คาใชจายยาสบตอเดอนของครวเรอน 201-500 บาทตอเดอน ไมมสมาชกทมสทธเบกคารกษาพยาบาล

32 87

3 รายไดเฉลยตอเดอนของครวเรอนคอ 10,001-20,000 บาทตอเดอน คาใชจายเฉลยตอเดอนของครวเรอน 10,001-20,000 บาทตอเดอน

33 79

4 ขนาดของครวเรอน 5-7 คน จ านวนผท างานหารายไดคอ 2-3 คน

35 79

5 คาใชจายเพอการอปโภคบรโภคตอเดอนของครวเรอน 5,001-12,000 บาทตอเดอน คาใชจายเฉลยตอเดอนของครวเรอน

37 75

6 คาใชจายเพอการอปโภคบรโภคตอเดอนของครวเรอน 5,001-12,000 บาทตอเดอน จ านวนผท างานหารายไดคอ 2-3 คน

34 69

7 คาใชจายเฉลยตอเดอนของครวเรอน 10,001-20,000 บาทตอเดอน จ านวนผท างานหารายไดคอ 2-3 คน

37 67

8 คาใชจายยาสบตอเดอนของครวเรอนมากกวา 500 บาทตอเดอน ไมมสมาชกทมบตรรบรองสทธการรกษาพยาบาล

42 66

9 คาใชจายเพอทอยอาศย เครองแตงบาน 2,001-4,000 บาทตอเดอน คาใชจายเพอการอปโภคบรโภคตอเดอนของครวเรอน 5,001-12,000 บาทตอเดอน

30 64

10 คาใชจายเพอทอยอาศย เครองแตงบาน 2,001-4,000 บาทตอเดอน คาใชจายเฉลยตอเดอนของครวเรอน 10,001-20,000 บาทตอเดอน

30 63

Page 19: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

19 ตารางท 5 ตวอยางกฎความสมพนธของตวแปรในครวเรอนกลมท 2 (ก าหนดคาสนบสนน ขนต าเทากบรอย

ละ 50 และคาความเชอมนขนต าเทากบรอยละ 60)

กฎ (Rule)

คาสนบสนน (Support)

(รอยละ)

คาความเชอมน (Confidence)

(รอยละ) 1 ไมมจ านวนสมาชกทท างานรบคาจางและเงนเดอน

ไมมสมาชกทมบตรรบรองสทธการรกษาพยาบาล 53 99

2 คาใชจายเฉลยตอเดอนของครวเรอนต ากวา 10,001 บาทตอเดอน

คาใชจายเพอการอปโภคบรโภคตอเดอนของครวเรอนนอยกวา 5,001 บาทตอเดอน 53 93

3 คาใชจายทไมเกยวกบการอปโภคบรโภค 1-1,000 บาทตอเดอน

ไมมสมาชกทมบตรรบรองสทธการรกษาพยาบาล 65 91

4 ระดบการศกษาสงสดต ากวามธยมศกษา

ไมมสมาชกทมสทธเบกคารกษาพยาบาล 61 91

5 คาใชจายเพอการอปโภคบรโภคตอเดอนของครวเรอนนอยกวา 5,001 บาทตอเดอน

คาใชจายการเดนทางและการสอสาร 1-2,000 บาทตอเดอน 55 86

6 คาใชจายการเดนทางและการสอสาร 1-2,000 บาทตอเดอน

คาใชจายเพอการอปโภคบรโภคตอเดอนของครวเรอนนอยกวา 5,001 บาทตอเดอน 55 77

7 คาใชจายการเดนทางและการสอสาร 1-2,000 บาทตอเดอน

ระดบการศกษาสงสดต ากวามธยมศกษา 50 71

Page 20: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

20 ตารางท 6 ตวอยางกฎความสมพนธของตวแปรในครวเรอนกลมท 3 (ก าหนดคาสนบสนน ขนต าเทากบรอย

ละ 35 และคาความเชอมนขนต าเทากบรอยละ 45)

กฎ (Rule)

คาสนบสนน (Support)

(รอยละ)

คาความเชอมน

(Confidence)

(รอยละ) 1 คาใชจายเพอการอปโภคบรโภคตอเดอนของครวเรอน 12,001-24,000 บาทตอเดอน

คาใชจายเฉลยตอเดอนของครวเรอน 20,001-50,000 บาทตอเดอน 51 96

2 คาใชจายการเดนทางและการสอสารมากกวา 8,000 บาทตอเดอน คาใชจายเฉลยตอเดอนของครวเรอน 20,001-50,000 บาทตอเดอน

36 94

3 คาใชจายเพอทอยอาศย เครองแตงบาน 4,001-8,000 บาทตอเดอน คาใชจายเฉลยตอเดอนของครวเรอน 20,001-50,000 บาทตอเดอน

35 91

4 คาใชจายเฉลยตอเดอนของครวเรอน 20,001-50,000 บาทตอเดอน และคาใชจายเบดเตลดมากกวา 2,000 บาทตอเดอน ไมมคาใชจายยาสบตอเดอนของครวเรอน

36 86

5 ขนาดของครวเรอน 3-4 คน ไมมคาใชจายยาสบตอเดอนของครวเรอน

42 86

6 รายไดเฉลยตอเดอนของครวเรอน 20,001-50,000 บาทตอเดอน คาใชจายเฉลยตอเดอนของครวเรอน 20,001-50,000 บาทตอเดอน

56 84

7 ไมมคาใชจายยาสบตอเดอนของครวเรอน และคาใชจายเบดเตลดมากกวา 2,000 บาทตอเดอน คาใชจายเฉลยตอเดอนของครวเรอน 20,001-50,000 บาทตอเดอน

36 81

8 ขนาดของครวเรอน 3-4 คน จ านวนผท างานหารายได 2-3 คน

36 74

9 คาใชจายเพอการอปโภคบรโภคตอเดอนของครวเรอน 12,001-24,000 บาทตอเดอน รายไดเฉลยตอเดอนของครวเรอน 20,001-50,000 บาทตอเดอน

38 71

10 คาใชจายเฉลยตอเดอนของครวเรอน 20,001-50,000 บาทตอเดอน คาใชจายการเดนทางและการสอสารมากกวา 8,000 บาทตอเดอน

36 45

Page 21: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

21 5. สรปและขอเสนอแนะ 5.1 สรปผลการวจย

งานวจยนเปนการศกษาและวเคราะหขอมลการส ารวจภาวะเศรษฐกจและสงคมของครวเรอน โดยน าความรทางดานการท าเหมองขอมล มาใชเพอจดกลมขอมลตามการใชจายของประชากร และหาความสมพนธของขอมลเพอศกษาปจจยทมผลตอการใชจายเงนของประชากรในประเทศไทย

ส าหรบงานวจยนขนตอนแรกนน ไดน าขอมลการส ารวจภาวะเศรษฐกจและสงคมของครวเรอนมาท าการจดกลมโดยใชอลกอรทมเคมน จดกลมตงแต 2-10 กลม เพอหาจ านวนกลมทเหมาะสม ซงพบวาเมอก าหนดจ านวนกลมเทากบ 3 จะใหคา DB Index และ SD Validity Index ดทสด ตวแปรคาใชจายทน ามาใชในการจดกลมประกอบดวย 8 ตวแปรคอ 1) คาใชจายอาหารและเครองดมตอเดอนของครวเรอน 2) คาใชจายยาสบตอเดอนของครวเรอน 3) คาใชจายทไมเกยวกบการอปโภคบรโภค 4) คาใชจายเพอทอยอาศย เครองแตงบานตอเดอนของครวเรอน 5) คาใชจายเวชภณฑและคาตรวจรกษาพยาบาล 6) คาใชจายการเดนทางและการสอสาร 7) คาใชจายเรองการศกษา และ 8) คาใชจายเบดเตลด

ลกษณะของครวเรอนในกลมท 1 เปนครวเรอนทมรายไดเฉลยตอเดอนของครวเรอนอยในชวงปานกลาง และมคาใชจายอยในชวงปานกลางดวย ไมวาจะเปนคาใชจายอาหารและเครองดม คาใชจายเพอทอยอาศย เครองแตงบานตอเดอนของครวเรอน แตมคาใชจายทเกยวกบยาสบตอเดอนของครวเรอนอยในระดบทสง มจ านวนสมาชกครวเรอนอยในชวง 3-4 คน ครวเรอนในกลมนสวนใหญมมลคาทรพยสนทางการเงนอยในชวงนอย สามารถหากฎความสมพนธไดท งสน 66 กฎ โดยก าหนดคาสนบสนนรอยละ 30 และคาความเชอมนรอยละ 60

ลกษณะของครวเรอนในกลมท 2 ซงมจ านวนมากทสด คดเปนรอยละ 70.45 เปนครวเรอนทมรายไดเฉลยตอเดอน และคาใชจายของครวเรอนนอยทสด ขนาดของครวเรอนอยในชวง 1-2 คนมากทสด และสมาชกสวนใหญไมไดท างานรบคาจางและเงนเดอน1 สามารถหากฎความสมพนธไดทงสน 60 กฎ โดยก าหนดคาสนบสนนรอยละ 50 และคาความเชอมนรอยละ 60

ลกษณะของครวเรอนในกลมท 3 เปนครวเรอนทมรายไดเฉลยตอเดอน และคาใชจายเฉลยตอเดอนของครวเรอนสงทสดเมอเปรยบเทยบกบทกกลม คอมคาใชจายเฉลยตอเดอนของครวเรอนอยในชวง 20,001-50,000 บาท หวหนาครวเรอนมระดบการศกษาสงกวากลมอน คอระดบปรญญาตรและสงกวาปรญญาตรมากกวากลมอน สามารถหากฎความสมพนธไดทงสน 61 กฎ โดยก าหนดคาสนบสนนรอยละ 35 และคาความเชอมนรอยละ 45

จากการวจยพบวากฎความสมพนธทไดมลกษณะคลายคลงกน เชน คาใชจายเพอการอปโภคบรโภคตอเดอนของครวเรอนมความสมพนธกบคาใชจายเฉลยตอเดอนของครวเรอน รายไดเฉลยตอเดอนของครวเรอนมความสมพนธกบคาใชจายเฉลยตอเดอนของครวเรอน ขนาดของครวเรอนมความสมพนธกบจ านวนผหารายได และคาใชจายยาสบตอเดอนของครวเรอนมความสมพนธกบจ านวนสมาชกทมสทธในการเบกคารกษาพยาบาล เปนตน

Page 22: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

22 5.2 ขอเสนอแนะ

ผวจยคาดวาหากสามารถประยกตโดยน าเทคนคหรอวธอนมาใชรวมกบอลกอรทมเคมนจะท าให

การจดกลมขอมลมประสทธภาพดขน นอกจากนหากสามารถน าขอมลมากกวา 1 ปขนไปมาวเคราะห อาจ

ท าใหทราบถงความสมพนธของตวแปรทมผลตอคาใชจายประเภทตางๆของครวเรอนในประเทศไทย

ชดเจนยงขน

กตตกรรมประกาศ

ผวจยขอขอบคณมหาวทยาลยหอการคาไทยทสนบสนนทนวจย และผมสวนเกยวของทกทานท

ท าใหงานวจยนส าเรจลลวงดวยด

บรรณานกรม ไชยยศ เออวรยะไชยกล และสมชาย ปราการเจรญ. 2554. การศกษาพฤตกรรมการใชบรการสนามของ

นกกอลฟ โดยใชอลกอรทมของกฎความสมพนธ กรณศกษา สนามกอลฟครสตล เบย กอลฟคลบ, การประชมทางวชาการดานเทคโนโลยคอมพวเตอรและระบบสารสนเทศประยกตระดบชาตครงท 3.

วาทน นยเพยร, ภรณยา อ ามฤครตน เดช, ธรรมศร ณรงค โพธ และพยง มสจ. 2551. การเปรยบเทยบอลกอรทมการจดกลมขอมล Ozone day โดยใชเทคนคการท าเหมอง ขอมล, The 5th National Conference on Computing and Information Technology.

สรธร เจรญรตน และ ชฎารตน พพฒนนนท. 2556. การศกษาปจจยทมผลตอรายไดของประชากรใน ประเทศไทยโดยใชเทคนคการท าเหมองขอมล, วารสารวชาการมหาวทยาลยหอการคาไทย ป 33 ฉบบท 1 เดอนมกราคม-มนาคม : 132-152.

เสาวณย ไทยรงโรจน และ นายวาทตร รกษธรรม. 2549. การวเคราะหพฤตกรรมการบรโภคมวลรวมและฟงกชนการบรโภคของครวเรอนไทย, วารสารวชาการมหาวทยาลยหอการคาไทย ป 26 ฉบบท 2 เดอนเมษายน-พฤษภาคม : 39-70.

Barth, M., E. Dimitriadou, K. Hornik and E. Moser. 2003. Comparison of clustering methods in fMRI analysis by ranking association coefficients, In Scientific Meeting of the International Society of Magnetic Resonance in Medicine 11. ed.

Halkidi, M., Y. Batistakis and M. Vazirgiannis. 2001. Clustering algorithms and validity measures, pp. 3 - 22. In International Conference on Scientific and Statistical Database Management 13. ed. IEEE Computer Society, Washington, DC, USA.

Page 23: Socio-Economic Household data analysis using the ...eprints.utcc.ac.th/1638/3/1638summary.pdf · 2 Abstract In this research, we studies and analyses the data from the Household Socio-Economic

23 Jain, A.K. and R.C. Dubes. 1988. Algorithms for Clustering Data. Jain, A. K. and Prentice-Hall, Inc.,

Upper Saddle River, NJ, USA. Jain, A.K., M.N. Murty and P.J. Flynn. 1999. Data clustering: a review. ACM Computing Surveys 31

(3): 164-323. Kovács, F., C. Legány and A. Babos. 2005. Cluster validity measurement techniques, In International

Symposium of Hungarian Researches on Computational Intelligenc Hungarian Researches on Computational Intelligenc 6. ed., Hungary.

MacQueen, J.B. 1967. Some methods for classification and analysis of multivariate observations, pp. 281-297. In Berkeley Symposium on Mathematical Statistics and Probability 5. ed. Berkeley, University of California.

Tan, P.N., M. Steinbach and V. Kumar. 2006. Introduction to Data Mining. Pearson Education, Inc., USA.