introduction to big data and analytic eakasit patcharawongsakda

Post on 15-Apr-2017

1.468 Views

Category:

Education

5 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Introduction to Big Data & Analytics

The First NIDA Business Analytics and Data Sciences Contest/Conference

วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์

https://businessanalyticsnida.wordpress.com

https://www.facebook.com/BusinessAnalyticsNIDA/

ดร.เอกสิทธิ์ พชัรวงศ์ศักดาอาจารย์ประจําหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big

Data Engineering) วิทยาลัยนวัตกรรมเทคโนโลยีและ

วิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์

ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญ ดาต้า คิวบ์ (Data Cube)

นวมินทราธิราช 3001 วันที่ 1 กันยายน 2559 13.30-15.15 น.

แนะนํา Big Data และตัวอย่างต่างๆ

แนะนํา Internet of Things (IoT)

แนะนําเทคนิคการวิเคราะหข์้อมลูด้วย Data Mining

แนะนําการ Big Data Analytics เช่น stream mining, text mining

Introduction to Big Data & Analytics

Eakasit Pacharawongsakda, Ph.D.

Big Data Engineering Program,

College of Innovation Technology and Engineering, DPU

eakasit.pac@dpu.ac.th

Introduction to Big Data & Data Mining

Chapter 1

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Outline• Introduction to Big Data

• Introduction to Internet of Things (IoT)

• Introduction to Data Mining

• Big Data & Analytics applications

3

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics• Big Bang

4source:http://www.thetechy.com/science/exploring-universe-curiosity

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics• Big Architecture (Great wall of China)

5source: http://www.history.com/topics/great-wall-of-china

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics• Big Data

6College of Inno ation Technolog ansource: http://www.plmjim.com/?p=583

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business without analytics

7

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business without analytics

8

image source: http://www.oknation.net/blog/print.php?id=434843

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business with analytics

9source: https://www.youtube.com/watch?v=7tAgbni9kpY

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Where does data come from?

10source: https://www.youtube.com/watch?v=Y_JlkzzhAgw

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Where is data come from?

• ข้อมูลแบ่งตามที่มา

• ภายในบริษัท/องค์กร

• ข้อมูลการซื้อขาย

• ข้อมูลประวัติลูกค้า

• ข้อมูลประวัติพนักงาน

• ภายนอกบริษัท/องค์กร

• ข้อมูลจาก social media ต่างๆ

• ข้อมูลข่าวต่างๆ

• ข้อมูลรูปภาพและเสียง

11

source: http://dailyprivacy.files.wordpress.com/2013/02/2012_big_data_study_infographic_600.jpg

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Structured & Unstructured data• ข้อมูลแบ่งเป็นแบบมีโครงสร้าง (structure) และไม่มีโครงสร้าง

(unstructure)

• ข้อมูลแบบมีโครงสร้าง เช่น ข้อมูลที่เก็บในรูปแบบตาราง

• ข้อมูลแบบไม่มีโครงสร้าง เช่น ข้อมูลที่เป็นข้อความ ข้อมูลที่เป็นรูปภาพ

12

ID outlook humidity windy play

1 sunny high FALSE no

2 sunny high TRUE no

3 overcast normal FALSE yes

binominalnumeric nominal

CCCCollege of Inno ti T hnology and Enginee iiiiiiririringngngnggngngng (((((((((((((((((((((((((((( (CICCCCCICCCICICCCICCCICCCICICICCCICCCICICICCICCICICCICICICICITETETETTETETETETTETETTETTETETTETETETETTETEEEETTETETETETETETETETETETET ))))))))))))))))))))))))))) 1122

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Structured & Unstructured data• ข้อมูลที่ไม่มีโครงสร้างที่เก็บอยู่ในรูปแบบข้อความ รูปภาพ เสียงมี

จำนวนมากถึง 80% ของข้อมูลทั้งหมด

13

source: http://www.couchbase.com/why-nosql/nosql-database

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Evolutions

14source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

What is Big Data?

15source: https://www.youtube.com/watch?v=TzxmjbL-i4Y

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

What is Big Data?

16source: http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html#

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

What is Big Data?

• Big Data ประกอบด้วย 3 V

• Volume • ข้อมูลมีจำนวนเพิ่มขึ้นอย่าง

มหาศาล

• Velocity• ข้อมูลเพิ่มขึ้นอย่างรวดเร็ว

• Variety• ข้อมูลมีความหลากหลายมาก

ขึ้น

17source:http://www.smartdatacollective.com/yellow;n/75616/why-big-data-and-business-intelligence-one-direction

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

What is Big Data?• Huge volume of data

• Rather than thousands or millions of rows, Big Data can be billions

of rows and million of columns

• Complexity of data types and structures

• Big Data reflects the variety of new data sources, formats and

structures

• Speed of new data creation and growth

• Big Data can describe high velocity data, with rapid data ingestion

and near real time analysis

18

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data: Volume

19source:https://datafloq.com/read/infographic/226

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data: Volume

20source:https://www.adeptia.com

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data: Velocity

21source:www.julianmarquina.es

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data: Variety

22source: http://thumbs.dreamstime.com/

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Outline• Introduction to Big Data

• Introduction to Internet of Things (IoT)

• Introduction to Data Mining

• Big Data & Analytics applications

23

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

What is Internet of Things?

24source:http://whatsthebigdata.com/2015/01/27/big-data-analytics-and-the-internet-of-things-infographic/

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Internet of Things• Google glasses

25source:https://www.youtube.com/watch?v=4EvNxWhskf8

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Internet of Things• Disney’s Magic Band

26source:https://disneyworld.disney.go.com/plan/my-disney-experience/bands-cards/#?CMP=SEC-WDWShareEmailNGE-MDX-MagicBand-video&video=0/0/0/0

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Internet of Things• GlowCaps

27source:http://www.vitality.net/glowcaps.html

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Internet of Things• Connected Toothbrush

28source:https://www.youtube.com/watch?v=gLpUxDdh9iQ

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Internet of Things

29source:https://www.youtube.com/watch?v=lsiHUfIpNGY

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Outline• Introduction to Big Data

• Introduction to Internet of Things (IoT)

• Introduction to Data Mining

• Big Data & Analytics applications

30

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data and traditional analytics

31

Big Data Traditional analytics

Type of data Unstructured formats Formatted in rows and columns

Volume of data 100 terabytes to petabytes Tens of terabytes or less

Flow of data Constant flow of data Static pool of data

Analysis method Machine Learning/Data Mining

Hypothesis-based

Primary purpose Data-based products Internal decision support and services

source: big data @ work

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

BI & Data Science/Data Mining

32

Business Intelligence

Data Mining

Time

Analytical Approach

Past Future

Explanatory

Explanatory

source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data

BI questions• What happened last

quarter? • How many unit sold? • Where is the problem? In

which situations

Data Mining questions• What if … ? • What will happen next? • Why is this happen?

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

• เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง

• การหาความสัมพันธ์ (association analysis)

• หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน

• เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ

• การจัดกลุ่มข้อมูล (clustering)

• แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง

• เช่น แบ่งกลุ่มลูกค้าตามพฤติกรรมการใช้งาน

• การจำแนกประเภทข้อมูล (classification)

• สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต

• เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป

Data Science/Data Mining methods

33

association rules

clustering

classification

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

34

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

35

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

36

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

37

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

38

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

39

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

40

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)

41

ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การจัดกลุ่ม (Segmentation)

42gggggggggineeeeringgg Proogggraam Collegggge of Innovation Technologygyygyg and E

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering)

43

1

2

3

5

6

4

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Data Science/Data Mining methods

• การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering)

44

1 6

4 5

2 3

ลูกค้าที่ใช้โทรเยอะ

ลูกค้าที่ส่ง SMS เยอะ

ลูกค้าที่ใช้งานไม่เยอะ

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

4. Modeling

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

45

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

Business Understanding�

Data Understanding�

Data Preparation� Modeling Evaluation Deployment

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

4. Modeling

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

46

Outlook

Humidity

= sunny = rainy

No

Yes Windy

= overcast

Yes No Yes

= high = normal = TRUE = FALSE

โมเดล decision tree

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

Business Understanding�

Data Understanding�

Data Preparation� Modeling Evaluation Deployment

ID Outlook Temperature Humidity Windy Play

1 sunny hot high FALSE no

2 sunny hot high TRUE no

3 overcast hot high FALSE yes

4 rainy mild high FALSE yes

5 rainy cool normal FALSE yes

6 rainy cool normal TRUE no

7 overcast mild normal TRUE yes

8 sunny mild high FALSE no

9 sunny mild normal FALSE yes

10 rainy mild normal FALSE yes

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

4. Modeling

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

47

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

Business Understanding�

Data Understanding�

Data Preparation� Modeling Evaluation Deployment

Outlook

Humidity

= sunny = rainy

No

Yes Windy

= overcast

Yes No Yes

= high = normal = TRUE = FALSE

ID Outlook Temperature Humidity Windy

1 sunny hot high FALSE

โมเดล decision tree

ข้อมูลที่ใช้ทดสอบ

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

4. Modeling

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

48

• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)

Business Understanding�

Data Understanding�

Data Preparation� Modeling Evaluation Deployment

Outlook

Humidity

= sunny = rainy

No

Yes Windy

= overcast

Yes No Yes

= high = normal = TRUE = FALSE

ID Outlook Temperature Humidity Windy

1 sunny hot high FALSE

โมเดล decision tree

ข้อมูลที่ใช้ทดสอบ

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Challenges for mining Big Data• Heterogeneous and Complex Data

• data types are varied such as Social Network data, Biological data, GIS

• data mining technique should take into the consideration relationships in the data such as network (graph) connectivity, temporal and spatial

• Scalability

• data sets with sizes of gigabytes, terabytes are becoming common.

• data mining technique can be improved by using sampling or developing parallel or distributed algorithms

49

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Variety• ข้อมูลมีความหลากหลาย

• Sequence

• เป็นข้อมูลลักษณะของตัวอักษรที่เรียงต่อกันเป็นลำดับ (sequence)

• ตัวอย่างเช่น web click stream sequence, DNA/Protein sequence

• Graph

• เป็นข้อมูลในรูปแบบของโหนด (node) ที่มีเส้นเชื่อมโยงถึงกัน (link)

• ตัวอย่างเช่น

• ความสัมพันธ์ของผู้ใช้งานเครือข่ายสังคมออนไลน์ (Social Network)

• ข้อมูลโครงสร้างทางเคมี (chemical structure)

• เครือข่ายคอมพิวเตอร์ (computer network)

50

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset

• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง

• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>

• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์

51

ลำดับที่ 1 ลำดับที่ 2

Session ID Sequence

1 <News, Finance>

2 <News, Finance>

3 <Sports, Finance, News>

4 <Arts>

5 <Sports, Finance, News>

6 <News, Arts, Entertainment>

ลำดับที่ 1 ลำดับที่ 2

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset

• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง

• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>

• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์

52

ลำดับที่ 1 ลำดับที่ 2

Session ID Sequence

1 <News, Finance>

2 <News, Finance>

3 <Sports, Finance, News>

4 <Arts>

5 <Sports, Finance, News>

6 <News, Arts, Entertainment>

ลำดับที่ 1 ลำดับที่ 2

Frequent sequence Frequency

<News, Finance> 2/6 = 33%

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset

• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง

• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>

• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์

53

ลำดับที่ 1 ลำดับที่ 2

Session ID Sequence

1 <News, Finance>

2 <News, Finance>

3 <Sports, Finance, News>

4 <Arts>

5 <Sports, Finance, News>

6 <News, Arts, Entertainment>

ลำดับที่ 1 ลำดับที่ 2

Frequent sequence Frequency

<News, Finance> 2/6 = 33%

<Finance, News> 2/6 = 33%

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset

• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง

• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>

• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์

54

ลำดับที่ 1 ลำดับที่ 2

Session ID Sequence

1 <News, Finance>

2 <News, Finance>

3 <Sports, Finance, News>

4 <Arts>

5 <Sports, Finance, News>

6 <News, Arts, Entertainment>

ลำดับที่ 1 ลำดับที่ 2

Frequent sequence Frequency

<News, Finance> 2/6 = 33%

<Finance, News> 2/6 = 33%

<Sports, Finance> 2/6 = 33%

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset

• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง

• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>

• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์

55

ลำดับที่ 1 ลำดับที่ 2

Session ID Sequence

1 <News, Finance>

2 <News, Finance>

3 <Sports, Finance, News>

4 <Arts>

5 <Sports, Finance, News>

6 <News, Arts, Entertainment>

ลำดับที่ 1 ลำดับที่ 2

Frequent sequence Frequency

<News, Finance> 2/6 = 33%

<Finance, News> 2/6 = 33%

<Sports, Finance> 2/6 = 33%

<Sports, Finance, News> 2/6 = 33%

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Graph Mining• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น

บ่อย

56image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Graph Mining• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น

บ่อย

57image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Graph Mining• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น

บ่อย

58image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Text Mining• การประยุกต์ใช้ข้อมูลประเภทข้อความ

• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์

59source:http://sentiment140.com และ http://www.techguide.com.au

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Text representation• ในการวิเคราะห์ข้อมูลข้อความต้องทำการแปลงข้อมูลให้อยู่

ในรูปแบบที่มีโครงสร้าง

60

Laying on the sand sun hitting me, this feels good :)

Smells so good I have two :)

i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! :)

I think NYC would be amazing, I really wanna go there :)

he never care,he never look at me..:(

i am so tired!! and my feet hurt :(

positive

negative

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Text representation: Bag of Words

• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ

61

ID Tweet Sentiment

1Laying on the sand sun hitting me, this feels good. positive

2 Smells so good I have two. positive

3

i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!

positive

4I think NYC would be amazing, I really wanna go there.

positive

5he never care,he never look at me.

negative

6i am so tired!! and my feet hurt.

negative

Term Count

Finding 1

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Text representation: Bag of Words

• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ

62

ID Tweet Sentiment

1Laying on the sand sun hitting me, this feels good. positive

2 Smells so good I have two. positive

3

i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!

positive

4I think NYC would be amazing, I really wanna go there.

positive

5he never care,he never look at me.

negative

6i am so tired!! and my feet hurt.

negative

Term Count

Finding 1

I 3

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Text representation: Bag of Words

• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ

63

ID Tweet Sentiment

1Laying on the sand sun hitting me, this feels good. positive

2 Smells so good I have two. positive

3

i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!

positive

4I think NYC would be amazing, I really wanna go there.

positive

5he never care,he never look at me.

negative

6i am so tired!! and my feet hurt.

negative

Term Count

Finding 1

I 3

Laying 1

MUCH 1

NYC 1

Nemo 1

Smells 1

always 1

am 1

amazing 1

and 1

at 1

be 1

but 1

care 1

Term Count

child 1

favourite 1

feels 1

feet 1

go 1

good 2

have 1

he 2

hitting 1

hood 1

hurt 1

i 3

look 1

me 1

… 1

bag of words

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Text representation: Stemming• แปลงคำให้เป็นรากศัพท์ (root) เช่น finding แปลงเป็น find

64

Term Count

child 1

favourite 3

feels 1

feet 1

go 1

good 2

have 1

he 2

hitting 1

hood 1

hurt 1

i 3

look 1

me 1

… 1

Term Count

child 1

favourit 1

feel 1

feet 1

go 1

good 2

have 1

he 2

hit 1

hood 1

hurt 1

i 3

look 1

me 1

… 1

Term Count

Finding 1

I 3

Laying 1

MUCH 1

NYC 1

Nemo 1

Smells 1

always 1

am 1

amazing 1

and 1

at 1

be 1

but 1

care 1

Term Count

find 1

i 6

lai 1

much 1

nyc 1

nemo 1

smell 1

alwai 1

am 1

amaz 1

and 1

at 1

be 1

but 1

care 1

bag of words bag of words

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Text representation: Remove stopwords

• ตัดคำที่เป็น stop word ทิ้ง

65

Term Count

find 1

i 6

lai 1

much 1

nyc 1

nemo 1

smell 1

alwai 1

am 1

amaz 1

and 1

at 1

be 1

but 1

care 1

Term Count

child 1

favourit 1

feel 1

feet 1

go 1

good 2

have 1

he 2

hit 1

hood 1

hurt 1

look 1

me 1

… 1

Term Count

find 1

i 6

lai 1

nyc 1

nemo 1

smell 1

alwai 1

amaz 1

child 1

favorit 1

feel 1

feet 1

go 1

good 2

hit 1

Term Count

hood 1

hurt 1

look 1

care 1

movi 1

reali 1

remind 1

sand 1

sun 1

thi 1

think 1

tire 1

todai 1

wa 3

watch 1

remove stopwords

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Convert text to structured data• Binary occurrence ถ้ามีคำที่เกิดขึ้นในแต่ละเอกสารจะให้ค่าเป็น 1

ถ้าไม่เกิดขึ้นจะเป็น 0

66

ID find I lai nyc nemo smell alwai … Sentiment

1 0 0 1 0 0 0 0 … positive

2 0 1 0 0 0 1 0 … positive

3 1 1 0 0 1 0 1 … positive

4 0 1 0 1 0 0 0 … positive

5 0 0 0 0 0 0 0 … negative

6 0 1 0 0 0 0 0 … negative

attribute labelID Tweet Sentiment

1Laying on the sand sun hitting me, this feels good. positive

2 Smells so good I have two. positive

3

i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!

positive

4I think NYC would be amazing, I really wanna go there.

positive

5he never care,he never look at me.

negative

6i am so tired!! and my feet hurt.

negative

training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Convert text to structured data• Term Frequency คือจำนวนครั้งที่คำนั้นเกิดขึ้นในเอกสารทั้งหมด

• TF = จำนวนคำในเอกสาร/จำนวนคำทั้งหมดในเอกสาร

67

ID find I lai nyc nemo … Sentiment

1 0 0 0.17 0 0 … positive

2 0 0.17 0 0 0 … positive

3 0.17 0.33 0 0 0.17 … positive

4 0 0.33 0 0.17 0 … positive

5 0 0 0 0 0 … negative

6 0 0.17 0 0 0 … negative

attribute labelID Tweet Sentiment

1Laying on the sand sun hitting me, this feels good. positive

2 Smells so good I have two. positive

3

i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!

positive

4I think NYC would be amazing, I really wanna go there.

positive

5he never care,he never look at me.

negative

6i am so tired!! and my feet hurt.

negative

training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Handle large corpus of text data• การนับจำนวนคำปกติจะเป็นแบบเรียงลำดับ (sequential) ทีละเอกสาร ดังนั้นถ้า

เอกสารมีจำนวนเยอะมากๆ จะทำงานได้้ช้า

• ใช้หลักการทำงานแบบขนาน (parallel) โดยใช้วิธีการของ Map/Reduce (Dean and

Ghemawat, OSDI 2004)

• Map, written by the user, takes an input pair and pro- duces a set of intermediate key/value pairs.

• จะเก็บในรูปแบบ (key1, value1) เช่น (“find”,1), (“I”,1), (“lay”,1), (“I”,1), (“I”,1)

• The Reduce function merges together values to form a possibly smaller set of values.

• จะเก็บในรูปแบบ (key1, list(value1)) เช่น (“find“,{1}), (“I“,{1,1,1}), (“lay“,{1})

• สุดท้ายจะได้จำนวนคำ คือ (“find”,1), (“I”,3) และ (“lay”,1)

68

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Map/Reduce Framework

69image source: http://www.infosun.fim.uni-passau.de/cl/MapReduceFoundation/

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Handle large corpus of text data

70

ID Tweet

1Laying on the sand sun hitting me, this feels good.

2Smells so good I have two.

ID Tweet

3

I watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when I was MUCH younger!

4I think NYC would be amazing, I really wanna go there.

ID Tweet

5he never care,he never look at me.

6 I am so tired!! and my feet hurt.

เครื่องที่ 1 เครื่องที่ 2 เครื่องที่ 3

map step

• (“Laying”,1) • (“on“, 1) …. • (“I“, 1)

• (“I“,1) • (“watched“, 1) …. • (“I“, 1)

• (“he“,1)

• (“never“, 1) ….

• (“I“, 1)

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Handle large corpus of text data

• (“he”,1)

• (“I”,{1,1,1,1,1,1}) => (“I”,6)

• (“Laying”,1)

• (“never”,1)

• (“on”, 1)

• (“watched”,1)

71

reduce stepmap step

• (“Laying”,1)

• (“on“, 1) ….

• (“I“, 1)

• (“I“,1) • (“watched“, 1) …. • (“I“, 1)

• (“he“,1) • (“never“, 1) …. • (“I“, 1)

เครื่องที่ 1

เครื่องที่ 2

เครื่องที่ 3

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Outline• Introduction to Big Data

• Introduction to Internet of Things (IoT)

• Introduction to Data Mining

• Big Data & Analytics applications

72

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• ตัวอย่างการนำ Data Mining ไปใช้งาน

73source: http://www.youtube.com/watch?v=f2Kji24833Y

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• บัตรสมาชิก (loyalty card)

• ติดตามพฤติกรรมการซื้อสินค้าของลูกค้าจากบัตร loyalty

• นำมาวิเคราะห์และนำเสนอเป็นโปรโมชันพิเศษให้แต่ละบุคคล

• เพิ่มโอกาสในการขายสินค้าให้กับลูกค้า

• กระตุ้นให้ลูกค้าได้ซื้อสินค้ามากขึ้น เช่น ซื้อสินค้าวันนี้ จะได้ส่วนลดพิเศษ ทำให้ลูกค้าเกิดการตัดสินใจซื้อทันที

74

image source: http://www.positioningmag.com

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• ทราบพฤติกรรมการซื้อสินค้าของลูกค้า เพื่อนำมาวิเคราะห์ และ

นำเสนอเป็นโปรโมชันพิเศษให้แต่ละบุคคล

75

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• เบียร์และผ้าอ้อม

• ห้าง Walmart พบว่าทุกวันศุกร์หลังบ่ายโมง จะมีลูกค้าเพศชายอายุระหว่าง 25 – 35 ปี ซื้อสินค้า Beers และ Diapers มากที่สุด

76

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• คาดการณ์การตั้งครรภ์

• ห้าง Target ทำการวิเคราะห์พฤติกรรมการซื้อสินค้าของลูกค้าเพศหญิง

• พบรูปแบบ (pattern) ว่าถ้ามีการซื้อวิตามิน ซื้ออาหารบำรุง หรือ ซื้อตู้เตียงเพิ่ม ลูกค้าจะเริ่มตั้งครรภ์

• Target จะส่ง promotion ให้ลูกค้าเหล่านั้น

77

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• แนะนำสินค้าที่เกี่ยวข้อง

• amazon.com แนะนำหนังสือที่เกี่ยวข้องกับ RapidMiner

• Netflix แนะนำภาพยนต์ที่คล้ายกับที่เคยดู เช่น Life of Pi

78

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• Google Self-Driving Car

79source: https://www.youtube.com/watch?v=8fjNSUWX7nQ

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• แนวโน้มราคาตั๋วเครื่องบิน

80

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

• คาดการณ์การลาออกของพนักงาน

Big Data & Analytics Applications

81

Receive Promotion

= NO = YES

Years with firm < 5

Not Quit

= YES = NO

Partner changed job

Quit Not Quit

= YES = NO

Quit

ตัวอย่างโมเดลคาดการณ์การลาออกของพนักงาน

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์

82

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ (ภาษาไทย)

83

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• ทำนายอายุและเพศจากรูปภาพ

84source: http://www.how-old.net

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• Paypal uses RapidMiner to detect churn and identify issues

85source: blob:https://rapidminer.com/63b65d64-0adb-4cc3-96bf-a5d5b88ee883

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• How Etihad Airways Uses Big Data To Reach Its Destination

86source:https://datafloq.com/read/etihad-airways-big-data-reach-destination/412

Introduction to Big Data & Analytics

The First NIDA Business Analytics and Data Sciences Contest/Conference

วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์

https://businessanalyticsnida.wordpress.com

https://www.facebook.com/BusinessAnalyticsNIDA/

ดร.เอกสิทธิ์ พชัรวงศ์ศักดาอาจารย์ประจําหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big

Data Engineering) วิทยาลัยนวัตกรรมเทคโนโลยีและ

วิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์

ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญ ดาต้า คิวบ์ (Data Cube)

นวมินทราธิราช 3001 วันที่ 1 กันยายน 2559 13.30-15.15 น.

แนะนํา Big Data และตัวอย่างต่างๆ

แนะนํา Internet of Things (IoT)

แนะนําเทคนิคการวิเคราะหข์้อมลูด้วย Data Mining

แนะนําการ Big Data Analytics เช่น stream mining, text mining

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Big Data & Analytics Applications• Business use cases

• Sales and marketing analytics

• Customer analytics

• Social media analytics

• Plant and facility management.

• Supply chain and channel analytics

• Fraud detection

• Price optimization

87

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business use cases• Sales and marketing analytics

• The first involves using analytical models to improve how customer-facing applications make direct recommendations to the customer

• include better identifying opportunities for cross-selling and upselling

• decreasing abandoned shopping carts and generally improving the accuracy

of integrated recommendation engines

• The second type is intended to show the performance of the marketing group's processes and campaigns and recommend adjustments to optimize that performance.

• Analyzing which campaign addressed the needs of identified clusters or

segments

• the success ratios for motivating the campaigns' call to action.

88

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business use cases• Customer analytics

• This includes analyzing customer demographics, behaviors and characteristics to develop models for

• segmenting customers

• predicting churn

• making next-best-offer recommendations to help with customer retention

• Social media analytics• The content that streams across social media channels provides ample

opportunities for analyzing customer sentiment and identifying brand riskswhen negative information is promulgated about a company's products

89

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business use cases• Plant and facility management.

• As more devices and machines are Internet-enabled, organizations

are able to collect and analyze streaming sensor data indicating

continuous measures of power usage, temperature, humidity and

contaminant particles, among a myriad of potential variables.

• Models can be developed for predicting equipment failures and

scheduling pre-emptive maintenance to keep items in working order

without interruption.

90

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business use cases• Supply chain and channel analytics

• Analyzing warehouse inventory, point-of-sale transactions and

shipments via a variety of channels (e.g., trucking, rail, shipping)

results in predictive analytical models that can help with

• pre-emptive replenishment

• inventory management strategies

• logistics management

• route optimization

• notifications when delays imperil timely deliveries

91

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business use cases• Fraud detection

• An adjunct to the growing risk of identity theft is the growth of

fraudulent activity and transactions

• Financial institutions analyze billions of transactions to identify

patterns of fraudulent behavior, and the analytical models can also

trigger alerts to customers when a potential fraudulent transaction

might be taking place.

92

Big Data Engineering Program College of Innovation Technology and Engineering (CITE)

Business use cases• Price optimization

• Retailers looking to maximize overall profitability for product sales may develop analytical models that combine a variety of data streams, including competitors' prices, sales transactions across many geographic regions (to review demand), and information on production, inventories and the supply chain (to monitor supply).

• The resulting models can be used to dynamically adjust product prices up when supplies are low, demand is on the increase and competitors are unable to deliver, or down when inventory needs to be cleared as seasonal demand shifts.

93

top related