introduction to big data and analytic eakasit patcharawongsakda

95
Introduction to Big Data & Analytics The First NIDA Business Analytics and Data Sciences Contest/Conference วันที1-2 กันยายน 2559 อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์ https://businessanalyticsnida.wordpress.com https://www.facebook.com/BusinessAnalyticsNIDA/ ดร.เอกสิทธิ พัชรวงศ์ศักดา อาจารย์ประจําหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big Data Engineering) วิทยาลัยนวัตกรรมเทคโนโลยีและ วิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์ ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญ ดาต้า คิวบ์ (Data Cube) นวมินทราธิราช 3001 วันที1 กันยายน 2559 13.30-15.15 . แนะนํา Big Data และตัวอย่างต่างๆ แนะนํา Internet of Things (IoT) แนะนําเทคนิคการวิเคราะห์ข้อมูลด้วย Data Mining แนะนําการ Big Data Analytics เช่น stream mining, text mining

Upload: bainida

Post on 15-Apr-2017

1.468 views

Category:

Education


5 download

TRANSCRIPT

Page 1: Introduction to big data and analytic eakasit patcharawongsakda

Introduction to Big Data & Analytics

The First NIDA Business Analytics and Data Sciences Contest/Conference

วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์

https://businessanalyticsnida.wordpress.com

https://www.facebook.com/BusinessAnalyticsNIDA/

ดร.เอกสิทธิ์ พชัรวงศ์ศักดาอาจารย์ประจําหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big

Data Engineering) วิทยาลัยนวัตกรรมเทคโนโลยีและ

วิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์

ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญ ดาต้า คิวบ์ (Data Cube)

นวมินทราธิราช 3001 วันที่ 1 กันยายน 2559 13.30-15.15 น.

แนะนํา Big Data และตัวอย่างต่างๆ

แนะนํา Internet of Things (IoT)

แนะนําเทคนิคการวิเคราะหข์้อมลูด้วย Data Mining

แนะนําการ Big Data Analytics เช่น stream mining, text mining

Page 2: Introduction to big data and analytic eakasit patcharawongsakda

Introduction to Big Data & Analytics

Eakasit Pacharawongsakda, Ph.D.

Big Data Engineering Program,

College of Innovation Technology and Engineering, DPU

[email protected]

Page 3: Introduction to big data and analytic eakasit patcharawongsakda

Introduction to Big Data & Data Mining

Chapter 1

Page 4: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Outline• Introduction to Big Data

• Introduction to Internet of Things (IoT)

• Introduction to Data Mining

• Big Data & Analytics applications

3

Page 5: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics• Big Bang

4source:http://www.thetechy.com/science/exploring-universe-curiosity

Page 6: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics• Big Architecture (Great wall of China)

5source: http://www.history.com/topics/great-wall-of-china

Page 7: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics• Big Data

6College of Inno ation Technolog ansource: http://www.plmjim.com/?p=583

Page 8: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business without analytics

7

Page 9: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business without analytics

8

image source: http://www.oknation.net/blog/print.php?id=434843

Page 10: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business with analytics

9source: https://www.youtube.com/watch?v=7tAgbni9kpY

Page 11: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Where does data come from?

10source: https://www.youtube.com/watch?v=Y_JlkzzhAgw

Page 12: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Where is data come from?

• ข้อมูลแบ่งตามที่มา

• ภายในบริษัท/องค์กร

• ข้อมูลการซื้อขาย

• ข้อมูลประวัติลูกค้า

• ข้อมูลประวัติพนักงาน

• ภายนอกบริษัท/องค์กร

• ข้อมูลจาก social media ต่างๆ

• ข้อมูลข่าวต่างๆ

• ข้อมูลรูปภาพและเสียง

11

source: http://dailyprivacy.files.wordpress.com/2013/02/2012_big_data_study_infographic_600.jpg

Page 13: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Structured & Unstructured data• ข้อมูลแบ่งเป็นแบบมีโครงสร้าง (structure) และไม่มีโครงสร้าง

(unstructure)

• ข้อมูลแบบมีโครงสร้าง เช่น ข้อมูลที่เก็บในรูปแบบตาราง

• ข้อมูลแบบไม่มีโครงสร้าง เช่น ข้อมูลที่เป็นข้อความ ข้อมูลที่เป็นรูปภาพ

12

ID outlook humidity windy play

1 sunny high FALSE no

2 sunny high TRUE no

3 overcast normal FALSE yes

binominalnumeric nominal

CCCCollege of Inno ti T hnology and Enginee iiiiiiririringngngnggngngng (((((((((((((((((((((((((((( (CICCCCCICCCICICCCICCCICCCICICICCCICCCICICICCICCICICCICICICICITETETETTETETETETTETETTETTETETTETETETETTETEEEETTETETETETETETETETETETET ))))))))))))))))))))))))))) 1122

Page 14: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Structured & Unstructured data• ข้อมูลที่ไม่มีโครงสร้างที่เก็บอยู่ในรูปแบบข้อความ รูปภาพ เสียงมี

จำนวนมากถึง 80% ของข้อมูลทั้งหมด

13

source: http://www.couchbase.com/why-nosql/nosql-database

Page 15: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Evolutions

14source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data

Page 16: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

What is Big Data?

15source: https://www.youtube.com/watch?v=TzxmjbL-i4Y

Page 17: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

What is Big Data?

16source: http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html#

Page 18: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

What is Big Data?

• Big Data ประกอบด้วย 3 V

• Volume • ข้อมูลมีจำนวนเพิ่มขึ้นอย่าง

มหาศาล

• Velocity• ข้อมูลเพิ่มขึ้นอย่างรวดเร็ว

• Variety• ข้อมูลมีความหลากหลายมาก

ขึ้น

17source:http://www.smartdatacollective.com/yellow;n/75616/why-big-data-and-business-intelligence-one-direction

Page 19: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

What is Big Data?• Huge volume of data

• Rather than thousands or millions of rows, Big Data can be billions

of rows and million of columns

• Complexity of data types and structures

• Big Data reflects the variety of new data sources, formats and

structures

• Speed of new data creation and growth

• Big Data can describe high velocity data, with rapid data ingestion

and near real time analysis

18

Page 20: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data: Volume

19source:https://datafloq.com/read/infographic/226

Page 21: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data: Volume

20source:https://www.adeptia.com

Page 22: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data: Velocity

21source:www.julianmarquina.es

Page 23: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data: Variety

22source: http://thumbs.dreamstime.com/

Page 24: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Outline• Introduction to Big Data

• Introduction to Internet of Things (IoT)

• Introduction to Data Mining

• Big Data & Analytics applications

23

Page 25: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

What is Internet of Things?

24source:http://whatsthebigdata.com/2015/01/27/big-data-analytics-and-the-internet-of-things-infographic/

Page 26: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Internet of Things• Google glasses

25source:https://www.youtube.com/watch?v=4EvNxWhskf8

Page 27: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Internet of Things• Disney’s Magic Band

26source:https://disneyworld.disney.go.com/plan/my-disney-experience/bands-cards/#?CMP=SEC-WDWShareEmailNGE-MDX-MagicBand-video&video=0/0/0/0

Page 28: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Internet of Things• GlowCaps

27source:http://www.vitality.net/glowcaps.html

Page 29: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Internet of Things• Connected Toothbrush

28source:https://www.youtube.com/watch?v=gLpUxDdh9iQ

Page 30: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Internet of Things

29source:https://www.youtube.com/watch?v=lsiHUfIpNGY

Page 31: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Outline• Introduction to Big Data

• Introduction to Internet of Things (IoT)

• Introduction to Data Mining

• Big Data & Analytics applications

30

Page 32: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data and traditional analytics

31

Big Data Traditional analytics

Type of data Unstructured formats Formatted in rows and columns

Volume of data 100 terabytes to petabytes Tens of terabytes or less

Flow of data Constant flow of data Static pool of data

Analysis method Machine Learning/Data Mining

Hypothesis-based

Primary purpose Data-based products Internal decision support and services

source: big data @ work

Page 33: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

BI & Data Science/Data Mining

32

Business Intelligence

Data Mining

Time

Analytical Approach

Past Future

Explanatory

Explanatory

source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data

BI questions• What happened last

quarter? • How many unit sold? • Where is the problem? In

which situations

Data Mining questions• What if … ? • What will happen next? • Why is this happen?

Page 34: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

• เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง

• การหาความสัมพันธ์ (association analysis)

• หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน

• เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ

• การจัดกลุ่มข้อมูล (clustering)

• แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง

• เช่น แบ่งกลุ่มลูกค้าตามพฤติกรรมการใช้งาน

• การจำแนกประเภทข้อมูล (classification)

• สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต

• เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป

Data Science/Data Mining methods

33

association rules

clustering

classification

Page 35: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

34

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Page 36: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

35

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Page 37: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

36

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Page 38: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

37

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Page 39: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

38

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Page 40: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

39

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Page 41: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

40

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Page 42: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

41

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Page 43: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การจัดกลุ่ม (Segmentation)

42gggggggggineeeeringgg Proogggraam Collegggge of Innovation Technologygyygyg and E

Page 44: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering)

43

1

2

3

5

6

4

Page 45: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering)

44

1 6

4 5

2 3

ลูกค้าที่ใช้โทรเยอะ

ลูกค้าที่ส่ง SMS เยอะ

ลูกค้าที่ใช้งานไม่เยอะ

Page 46: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

4. Modeling

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

45

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

Business Understanding�

Data Understanding�

Data Preparation� Modeling Evaluation Deployment

Page 47: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

4. Modeling

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

46

Outlook

Humidity

= sunny = rainy

No

Yes Windy

= overcast

Yes No Yes

= high = normal = TRUE = FALSE

โมเดล decision tree

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

Business Understanding�

Data Understanding�

Data Preparation� Modeling Evaluation Deployment

ID Outlook Temperature Humidity Windy Play

1 sunny hot high FALSE no

2 sunny hot high TRUE no

3 overcast hot high FALSE yes

4 rainy mild high FALSE yes

5 rainy cool normal FALSE yes

6 rainy cool normal TRUE no

7 overcast mild normal TRUE yes

8 sunny mild high FALSE no

9 sunny mild normal FALSE yes

10 rainy mild normal FALSE yes

Page 48: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

4. Modeling

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

47

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

Business Understanding�

Data Understanding�

Data Preparation� Modeling Evaluation Deployment

Outlook

Humidity

= sunny = rainy

No

Yes Windy

= overcast

Yes No Yes

= high = normal = TRUE = FALSE

ID Outlook Temperature Humidity Windy

1 sunny hot high FALSE

โมเดล decision tree

ข้อมูลที่ใช้ทดสอบ

Page 49: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

4. Modeling

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

48

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

Business Understanding�

Data Understanding�

Data Preparation� Modeling Evaluation Deployment

Outlook

Humidity

= sunny = rainy

No

Yes Windy

= overcast

Yes No Yes

= high = normal = TRUE = FALSE

ID Outlook Temperature Humidity Windy

1 sunny hot high FALSE

โมเดล decision tree

ข้อมูลที่ใช้ทดสอบ

Page 50: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Challenges for mining Big Data• Heterogeneous and Complex Data

• data types are varied such as Social Network data, Biological data, GIS

• data mining technique should take into the consideration relationships in the data such as network (graph) connectivity, temporal and spatial

• Scalability

• data sets with sizes of gigabytes, terabytes are becoming common.

• data mining technique can be improved by using sampling or developing parallel or distributed algorithms

49

Page 51: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Variety• ข้อมูลมีความหลากหลาย

• Sequence

• เป็นข้อมูลลักษณะของตัวอักษรที่เรียงต่อกันเป็นลำดับ (sequence)

• ตัวอย่างเช่น web click stream sequence, DNA/Protein sequence

• Graph

• เป็นข้อมูลในรูปแบบของโหนด (node) ที่มีเส้นเชื่อมโยงถึงกัน (link)

• ตัวอย่างเช่น

• ความสัมพันธ์ของผู้ใช้งานเครือข่ายสังคมออนไลน์ (Social Network)

• ข้อมูลโครงสร้างทางเคมี (chemical structure)

• เครือข่ายคอมพิวเตอร์ (computer network)

50

Page 52: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset

• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง

• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>

• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์

51

ลำดับที่ 1 ลำดับที่ 2

Session ID Sequence

1 <News, Finance>

2 <News, Finance>

3 <Sports, Finance, News>

4 <Arts>

5 <Sports, Finance, News>

6 <News, Arts, Entertainment>

ลำดับที่ 1 ลำดับที่ 2

Page 53: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset

• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง

• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>

• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์

52

ลำดับที่ 1 ลำดับที่ 2

Session ID Sequence

1 <News, Finance>

2 <News, Finance>

3 <Sports, Finance, News>

4 <Arts>

5 <Sports, Finance, News>

6 <News, Arts, Entertainment>

ลำดับที่ 1 ลำดับที่ 2

Frequent sequence Frequency

<News, Finance> 2/6 = 33%

Page 54: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset

• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง

• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>

• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์

53

ลำดับที่ 1 ลำดับที่ 2

Session ID Sequence

1 <News, Finance>

2 <News, Finance>

3 <Sports, Finance, News>

4 <Arts>

5 <Sports, Finance, News>

6 <News, Arts, Entertainment>

ลำดับที่ 1 ลำดับที่ 2

Frequent sequence Frequency

<News, Finance> 2/6 = 33%

<Finance, News> 2/6 = 33%

Page 55: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset

• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง

• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>

• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์

54

ลำดับที่ 1 ลำดับที่ 2

Session ID Sequence

1 <News, Finance>

2 <News, Finance>

3 <Sports, Finance, News>

4 <Arts>

5 <Sports, Finance, News>

6 <News, Arts, Entertainment>

ลำดับที่ 1 ลำดับที่ 2

Frequent sequence Frequency

<News, Finance> 2/6 = 33%

<Finance, News> 2/6 = 33%

<Sports, Finance> 2/6 = 33%

Page 56: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset

• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง

• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>

• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์

55

ลำดับที่ 1 ลำดับที่ 2

Session ID Sequence

1 <News, Finance>

2 <News, Finance>

3 <Sports, Finance, News>

4 <Arts>

5 <Sports, Finance, News>

6 <News, Arts, Entertainment>

ลำดับที่ 1 ลำดับที่ 2

Frequent sequence Frequency

<News, Finance> 2/6 = 33%

<Finance, News> 2/6 = 33%

<Sports, Finance> 2/6 = 33%

<Sports, Finance, News> 2/6 = 33%

Page 57: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Graph Mining• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น

บ่อย

56image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014

Page 58: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Graph Mining• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น

บ่อย

57image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014

Page 59: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Graph Mining• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น

บ่อย

58image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014

Page 60: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Text Mining• การประยุกต์ใช้ข้อมูลประเภทข้อความ

• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์

59source:http://sentiment140.com และ http://www.techguide.com.au

Page 61: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Text representation• ในการวิเคราะห์ข้อมูลข้อความต้องทำการแปลงข้อมูลให้อยู่

ในรูปแบบที่มีโครงสร้าง

60

Laying on the sand sun hitting me, this feels good :)

Smells so good I have two :)

i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! :)

I think NYC would be amazing, I really wanna go there :)

he never care,he never look at me..:(

i am so tired!! and my feet hurt :(

positive

negative

Page 62: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Text representation: Bag of Words

• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ

61

ID Tweet Sentiment

1Laying on the sand sun hitting me, this feels good. positive

2 Smells so good I have two. positive

3

i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!

positive

4I think NYC would be amazing, I really wanna go there.

positive

5he never care,he never look at me.

negative

6i am so tired!! and my feet hurt.

negative

Term Count

Finding 1

Page 63: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Text representation: Bag of Words

• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ

62

ID Tweet Sentiment

1Laying on the sand sun hitting me, this feels good. positive

2 Smells so good I have two. positive

3

i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!

positive

4I think NYC would be amazing, I really wanna go there.

positive

5he never care,he never look at me.

negative

6i am so tired!! and my feet hurt.

negative

Term Count

Finding 1

I 3

Page 64: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Text representation: Bag of Words

• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ

63

ID Tweet Sentiment

1Laying on the sand sun hitting me, this feels good. positive

2 Smells so good I have two. positive

3

i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!

positive

4I think NYC would be amazing, I really wanna go there.

positive

5he never care,he never look at me.

negative

6i am so tired!! and my feet hurt.

negative

Term Count

Finding 1

I 3

Laying 1

MUCH 1

NYC 1

Nemo 1

Smells 1

always 1

am 1

amazing 1

and 1

at 1

be 1

but 1

care 1

Term Count

child 1

favourite 1

feels 1

feet 1

go 1

good 2

have 1

he 2

hitting 1

hood 1

hurt 1

i 3

look 1

me 1

… 1

bag of words

Page 65: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Text representation: Stemming• แปลงคำให้เป็นรากศัพท์ (root) เช่น finding แปลงเป็น find

64

Term Count

child 1

favourite 3

feels 1

feet 1

go 1

good 2

have 1

he 2

hitting 1

hood 1

hurt 1

i 3

look 1

me 1

… 1

Term Count

child 1

favourit 1

feel 1

feet 1

go 1

good 2

have 1

he 2

hit 1

hood 1

hurt 1

i 3

look 1

me 1

… 1

Term Count

Finding 1

I 3

Laying 1

MUCH 1

NYC 1

Nemo 1

Smells 1

always 1

am 1

amazing 1

and 1

at 1

be 1

but 1

care 1

Term Count

find 1

i 6

lai 1

much 1

nyc 1

nemo 1

smell 1

alwai 1

am 1

amaz 1

and 1

at 1

be 1

but 1

care 1

bag of words bag of words

Page 66: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Text representation: Remove stopwords

• ตัดคำที่เป็น stop word ทิ้ง

65

Term Count

find 1

i 6

lai 1

much 1

nyc 1

nemo 1

smell 1

alwai 1

am 1

amaz 1

and 1

at 1

be 1

but 1

care 1

Term Count

child 1

favourit 1

feel 1

feet 1

go 1

good 2

have 1

he 2

hit 1

hood 1

hurt 1

look 1

me 1

… 1

Term Count

find 1

i 6

lai 1

nyc 1

nemo 1

smell 1

alwai 1

amaz 1

child 1

favorit 1

feel 1

feet 1

go 1

good 2

hit 1

Term Count

hood 1

hurt 1

look 1

care 1

movi 1

reali 1

remind 1

sand 1

sun 1

thi 1

think 1

tire 1

todai 1

wa 3

watch 1

remove stopwords

Page 67: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Convert text to structured data• Binary occurrence ถ้ามีคำที่เกิดขึ้นในแต่ละเอกสารจะให้ค่าเป็น 1

ถ้าไม่เกิดขึ้นจะเป็น 0

66

ID find I lai nyc nemo smell alwai … Sentiment

1 0 0 1 0 0 0 0 … positive

2 0 1 0 0 0 1 0 … positive

3 1 1 0 0 1 0 1 … positive

4 0 1 0 1 0 0 0 … positive

5 0 0 0 0 0 0 0 … negative

6 0 1 0 0 0 0 0 … negative

attribute labelID Tweet Sentiment

1Laying on the sand sun hitting me, this feels good. positive

2 Smells so good I have two. positive

3

i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!

positive

4I think NYC would be amazing, I really wanna go there.

positive

5he never care,he never look at me.

negative

6i am so tired!! and my feet hurt.

negative

training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ

Page 68: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Convert text to structured data• Term Frequency คือจำนวนครั้งที่คำนั้นเกิดขึ้นในเอกสารทั้งหมด

• TF = จำนวนคำในเอกสาร/จำนวนคำทั้งหมดในเอกสาร

67

ID find I lai nyc nemo … Sentiment

1 0 0 0.17 0 0 … positive

2 0 0.17 0 0 0 … positive

3 0.17 0.33 0 0 0.17 … positive

4 0 0.33 0 0.17 0 … positive

5 0 0 0 0 0 … negative

6 0 0.17 0 0 0 … negative

attribute labelID Tweet Sentiment

1Laying on the sand sun hitting me, this feels good. positive

2 Smells so good I have two. positive

3

i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!

positive

4I think NYC would be amazing, I really wanna go there.

positive

5he never care,he never look at me.

negative

6i am so tired!! and my feet hurt.

negative

training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ

Page 69: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Handle large corpus of text data• การนับจำนวนคำปกติจะเป็นแบบเรียงลำดับ (sequential) ทีละเอกสาร ดังนั้นถ้า

เอกสารมีจำนวนเยอะมากๆ จะทำงานได้้ช้า

• ใช้หลักการทำงานแบบขนาน (parallel) โดยใช้วิธีการของ Map/Reduce (Dean and

Ghemawat, OSDI 2004)

• Map, written by the user, takes an input pair and pro- duces a set of intermediate key/value pairs.

• จะเก็บในรูปแบบ (key1, value1) เช่น (“find”,1), (“I”,1), (“lay”,1), (“I”,1), (“I”,1)

• The Reduce function merges together values to form a possibly smaller set of values.

• จะเก็บในรูปแบบ (key1, list(value1)) เช่น (“find“,{1}), (“I“,{1,1,1}), (“lay“,{1})

• สุดท้ายจะได้จำนวนคำ คือ (“find”,1), (“I”,3) และ (“lay”,1)

68

Page 70: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Map/Reduce Framework

69image source: http://www.infosun.fim.uni-passau.de/cl/MapReduceFoundation/

Page 71: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Handle large corpus of text data

70

ID Tweet

1Laying on the sand sun hitting me, this feels good.

2Smells so good I have two.

ID Tweet

3

I watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when I was MUCH younger!

4I think NYC would be amazing, I really wanna go there.

ID Tweet

5he never care,he never look at me.

6 I am so tired!! and my feet hurt.

เครื่องที่ 1 เครื่องที่ 2 เครื่องที่ 3

map step

• (“Laying”,1) • (“on“, 1) …. • (“I“, 1)

• (“I“,1) • (“watched“, 1) …. • (“I“, 1)

• (“he“,1)

• (“never“, 1) ….

• (“I“, 1)

Page 72: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Handle large corpus of text data

• (“he”,1)

• (“I”,{1,1,1,1,1,1}) => (“I”,6)

• (“Laying”,1)

• (“never”,1)

• (“on”, 1)

• (“watched”,1)

71

reduce stepmap step

• (“Laying”,1)

• (“on“, 1) ….

• (“I“, 1)

• (“I“,1) • (“watched“, 1) …. • (“I“, 1)

• (“he“,1) • (“never“, 1) …. • (“I“, 1)

เครื่องที่ 1

เครื่องที่ 2

เครื่องที่ 3

Page 73: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Outline• Introduction to Big Data

• Introduction to Internet of Things (IoT)

• Introduction to Data Mining

• Big Data & Analytics applications

72

Page 74: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• ตัวอย่างการนำ Data Mining ไปใช้งาน

73source: http://www.youtube.com/watch?v=f2Kji24833Y

Page 75: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• บัตรสมาชิก (loyalty card)

• ติดตามพฤติกรรมการซื้อสินค้าของลูกค้าจากบัตร loyalty

• นำมาวิเคราะห์และนำเสนอเป็นโปรโมชันพิเศษให้แต่ละบุคคล

• เพิ่มโอกาสในการขายสินค้าให้กับลูกค้า

• กระตุ้นให้ลูกค้าได้ซื้อสินค้ามากขึ้น เช่น ซื้อสินค้าวันนี้ จะได้ส่วนลดพิเศษ ทำให้ลูกค้าเกิดการตัดสินใจซื้อทันที

74

image source: http://www.positioningmag.com

Page 76: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• ทราบพฤติกรรมการซื้อสินค้าของลูกค้า เพื่อนำมาวิเคราะห์ และ

นำเสนอเป็นโปรโมชันพิเศษให้แต่ละบุคคล

75

Page 77: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• เบียร์และผ้าอ้อม

• ห้าง Walmart พบว่าทุกวันศุกร์หลังบ่ายโมง จะมีลูกค้าเพศชายอายุระหว่าง 25 – 35 ปี ซื้อสินค้า Beers และ Diapers มากที่สุด

76

Page 78: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• คาดการณ์การตั้งครรภ์

• ห้าง Target ทำการวิเคราะห์พฤติกรรมการซื้อสินค้าของลูกค้าเพศหญิง

• พบรูปแบบ (pattern) ว่าถ้ามีการซื้อวิตามิน ซื้ออาหารบำรุง หรือ ซื้อตู้เตียงเพิ่ม ลูกค้าจะเริ่มตั้งครรภ์

• Target จะส่ง promotion ให้ลูกค้าเหล่านั้น

77

Page 79: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• แนะนำสินค้าที่เกี่ยวข้อง

• amazon.com แนะนำหนังสือที่เกี่ยวข้องกับ RapidMiner

• Netflix แนะนำภาพยนต์ที่คล้ายกับที่เคยดู เช่น Life of Pi

78

Page 80: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• Google Self-Driving Car

79source: https://www.youtube.com/watch?v=8fjNSUWX7nQ

Page 81: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• แนวโน้มราคาตั๋วเครื่องบิน

80

Page 82: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

• คาดการณ์การลาออกของพนักงาน

Big Data & Analytics Applications

81

Receive Promotion

= NO = YES

Years with firm < 5

Not Quit

= YES = NO

Partner changed job

Quit Not Quit

= YES = NO

Quit

ตัวอย่างโมเดลคาดการณ์การลาออกของพนักงาน

Page 83: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์

82

Page 84: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ (ภาษาไทย)

83

Page 85: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• ทำนายอายุและเพศจากรูปภาพ

84source: http://www.how-old.net

Page 86: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• Paypal uses RapidMiner to detect churn and identify issues

85source: blob:https://rapidminer.com/63b65d64-0adb-4cc3-96bf-a5d5b88ee883

Page 87: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• How Etihad Airways Uses Big Data To Reach Its Destination

86source:https://datafloq.com/read/etihad-airways-big-data-reach-destination/412

Page 88: Introduction to big data and analytic eakasit patcharawongsakda

Introduction to Big Data & Analytics

The First NIDA Business Analytics and Data Sciences Contest/Conference

วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์

https://businessanalyticsnida.wordpress.com

https://www.facebook.com/BusinessAnalyticsNIDA/

ดร.เอกสิทธิ์ พชัรวงศ์ศักดาอาจารย์ประจําหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big

Data Engineering) วิทยาลัยนวัตกรรมเทคโนโลยีและ

วิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์

ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญ ดาต้า คิวบ์ (Data Cube)

นวมินทราธิราช 3001 วันที่ 1 กันยายน 2559 13.30-15.15 น.

แนะนํา Big Data และตัวอย่างต่างๆ

แนะนํา Internet of Things (IoT)

แนะนําเทคนิคการวิเคราะหข์้อมลูด้วย Data Mining

แนะนําการ Big Data Analytics เช่น stream mining, text mining

Page 89: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• Business use cases

• Sales and marketing analytics

• Customer analytics

• Social media analytics

• Plant and facility management.

• Supply chain and channel analytics

• Fraud detection

• Price optimization

87

Page 90: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business use cases• Sales and marketing analytics

• The first involves using analytical models to improve how customer-facing applications make direct recommendations to the customer

• include better identifying opportunities for cross-selling and upselling

• decreasing abandoned shopping carts and generally improving the accuracy

of integrated recommendation engines

• The second type is intended to show the performance of the marketing group's processes and campaigns and recommend adjustments to optimize that performance.

• Analyzing which campaign addressed the needs of identified clusters or

segments

• the success ratios for motivating the campaigns' call to action.

88

Page 91: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business use cases• Customer analytics

• This includes analyzing customer demographics, behaviors and characteristics to develop models for

• segmenting customers

• predicting churn

• making next-best-offer recommendations to help with customer retention

• Social media analytics• The content that streams across social media channels provides ample

opportunities for analyzing customer sentiment and identifying brand riskswhen negative information is promulgated about a company's products

89

Page 92: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business use cases• Plant and facility management.

• As more devices and machines are Internet-enabled, organizations

are able to collect and analyze streaming sensor data indicating

continuous measures of power usage, temperature, humidity and

contaminant particles, among a myriad of potential variables.

• Models can be developed for predicting equipment failures and

scheduling pre-emptive maintenance to keep items in working order

without interruption.

90

Page 93: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business use cases• Supply chain and channel analytics

• Analyzing warehouse inventory, point-of-sale transactions and

shipments via a variety of channels (e.g., trucking, rail, shipping)

results in predictive analytical models that can help with

• pre-emptive replenishment

• inventory management strategies

• logistics management

• route optimization

• notifications when delays imperil timely deliveries

91

Page 94: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business use cases• Fraud detection

• An adjunct to the growing risk of identity theft is the growth of

fraudulent activity and transactions

• Financial institutions analyze billions of transactions to identify

patterns of fraudulent behavior, and the analytical models can also

trigger alerts to customers when a potential fraudulent transaction

might be taking place.

92

Page 95: Introduction to big data and analytic eakasit patcharawongsakda

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business use cases• Price optimization

• Retailers looking to maximize overall profitability for product sales may develop analytical models that combine a variety of data streams, including competitors' prices, sales transactions across many geographic regions (to review demand), and information on production, inventories and the supply chain (to monitor supply).

• The resulting models can be used to dynamically adjust product prices up when supplies are low, demand is on the increase and competitors are unable to deliver, or down when inventory needs to be cleared as seasonal demand shifts.

93