introduction to big data and analytic eakasit patcharawongsakda
TRANSCRIPT
Introduction to Big Data & Analytics
The First NIDA Business Analytics and Data Sciences Contest/Conference
วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์
https://businessanalyticsnida.wordpress.com
https://www.facebook.com/BusinessAnalyticsNIDA/
ดร.เอกสิทธิ์ พชัรวงศ์ศักดาอาจารย์ประจําหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big
Data Engineering) วิทยาลัยนวัตกรรมเทคโนโลยีและ
วิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์
ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญ ดาต้า คิวบ์ (Data Cube)
นวมินทราธิราช 3001 วันที่ 1 กันยายน 2559 13.30-15.15 น.
แนะนํา Big Data และตัวอย่างต่างๆ
แนะนํา Internet of Things (IoT)
แนะนําเทคนิคการวิเคราะหข์้อมลูด้วย Data Mining
แนะนําการ Big Data Analytics เช่น stream mining, text mining
Introduction to Big Data & Analytics
Eakasit Pacharawongsakda, Ph.D.
Big Data Engineering Program,
College of Innovation Technology and Engineering, DPU
Introduction to Big Data & Data Mining
Chapter 1
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Outline• Introduction to Big Data
• Introduction to Internet of Things (IoT)
• Introduction to Data Mining
• Big Data & Analytics applications
3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics• Big Bang
4source:http://www.thetechy.com/science/exploring-universe-curiosity
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics• Big Architecture (Great wall of China)
5source: http://www.history.com/topics/great-wall-of-china
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics• Big Data
6College of Inno ation Technolog ansource: http://www.plmjim.com/?p=583
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business without analytics
7
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business without analytics
8
image source: http://www.oknation.net/blog/print.php?id=434843
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business with analytics
9source: https://www.youtube.com/watch?v=7tAgbni9kpY
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Where does data come from?
10source: https://www.youtube.com/watch?v=Y_JlkzzhAgw
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Where is data come from?
• ข้อมูลแบ่งตามที่มา
• ภายในบริษัท/องค์กร
• ข้อมูลการซื้อขาย
• ข้อมูลประวัติลูกค้า
• ข้อมูลประวัติพนักงาน
• ภายนอกบริษัท/องค์กร
• ข้อมูลจาก social media ต่างๆ
• ข้อมูลข่าวต่างๆ
• ข้อมูลรูปภาพและเสียง
11
source: http://dailyprivacy.files.wordpress.com/2013/02/2012_big_data_study_infographic_600.jpg
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Structured & Unstructured data• ข้อมูลแบ่งเป็นแบบมีโครงสร้าง (structure) และไม่มีโครงสร้าง
(unstructure)
• ข้อมูลแบบมีโครงสร้าง เช่น ข้อมูลที่เก็บในรูปแบบตาราง
• ข้อมูลแบบไม่มีโครงสร้าง เช่น ข้อมูลที่เป็นข้อความ ข้อมูลที่เป็นรูปภาพ
12
ID outlook humidity windy play
1 sunny high FALSE no
2 sunny high TRUE no
3 overcast normal FALSE yes
binominalnumeric nominal
CCCCollege of Inno ti T hnology and Enginee iiiiiiririringngngnggngngng (((((((((((((((((((((((((((( (CICCCCCICCCICICCCICCCICCCICICICCCICCCICICICCICCICICCICICICICITETETETTETETETETTETETTETTETETTETETETETTETEEEETTETETETETETETETETETETET ))))))))))))))))))))))))))) 1122
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Structured & Unstructured data• ข้อมูลที่ไม่มีโครงสร้างที่เก็บอยู่ในรูปแบบข้อความ รูปภาพ เสียงมี
จำนวนมากถึง 80% ของข้อมูลทั้งหมด
13
source: http://www.couchbase.com/why-nosql/nosql-database
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Evolutions
14source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Big Data?
15source: https://www.youtube.com/watch?v=TzxmjbL-i4Y
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Big Data?
16source: http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html#
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Big Data?
• Big Data ประกอบด้วย 3 V
• Volume • ข้อมูลมีจำนวนเพิ่มขึ้นอย่าง
มหาศาล
• Velocity• ข้อมูลเพิ่มขึ้นอย่างรวดเร็ว
• Variety• ข้อมูลมีความหลากหลายมาก
ขึ้น
17source:http://www.smartdatacollective.com/yellow;n/75616/why-big-data-and-business-intelligence-one-direction
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Big Data?• Huge volume of data
• Rather than thousands or millions of rows, Big Data can be billions
of rows and million of columns
• Complexity of data types and structures
• Big Data reflects the variety of new data sources, formats and
structures
• Speed of new data creation and growth
• Big Data can describe high velocity data, with rapid data ingestion
and near real time analysis
18
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data: Volume
19source:https://datafloq.com/read/infographic/226
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data: Volume
20source:https://www.adeptia.com
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data: Velocity
21source:www.julianmarquina.es
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data: Variety
22source: http://thumbs.dreamstime.com/
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Outline• Introduction to Big Data
• Introduction to Internet of Things (IoT)
• Introduction to Data Mining
• Big Data & Analytics applications
23
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
What is Internet of Things?
24source:http://whatsthebigdata.com/2015/01/27/big-data-analytics-and-the-internet-of-things-infographic/
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things• Google glasses
25source:https://www.youtube.com/watch?v=4EvNxWhskf8
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things• Disney’s Magic Band
26source:https://disneyworld.disney.go.com/plan/my-disney-experience/bands-cards/#?CMP=SEC-WDWShareEmailNGE-MDX-MagicBand-video&video=0/0/0/0
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things• GlowCaps
27source:http://www.vitality.net/glowcaps.html
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things• Connected Toothbrush
28source:https://www.youtube.com/watch?v=gLpUxDdh9iQ
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Internet of Things
29source:https://www.youtube.com/watch?v=lsiHUfIpNGY
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Outline• Introduction to Big Data
• Introduction to Internet of Things (IoT)
• Introduction to Data Mining
• Big Data & Analytics applications
30
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data and traditional analytics
31
Big Data Traditional analytics
Type of data Unstructured formats Formatted in rows and columns
Volume of data 100 terabytes to petabytes Tens of terabytes or less
Flow of data Constant flow of data Static pool of data
Analysis method Machine Learning/Data Mining
Hypothesis-based
Primary purpose Data-based products Internal decision support and services
source: big data @ work
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
BI & Data Science/Data Mining
32
Business Intelligence
Data Mining
Time
Analytical Approach
Past Future
Explanatory
Explanatory
source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data
BI questions• What happened last
quarter? • How many unit sold? • Where is the problem? In
which situations
Data Mining questions• What if … ? • What will happen next? • Why is this happen?
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
• เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง
• การหาความสัมพันธ์ (association analysis)
• หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน
• เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ
• การจัดกลุ่มข้อมูล (clustering)
• แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง
• เช่น แบ่งกลุ่มลูกค้าตามพฤติกรรมการใช้งาน
• การจำแนกประเภทข้อมูล (classification)
• สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต
• เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป
Data Science/Data Mining methods
33
association rules
clustering
classification
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
34
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
35
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
36
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
37
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
38
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
39
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
40
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
41
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การจัดกลุ่ม (Segmentation)
42gggggggggineeeeringgg Proogggraam Collegggge of Innovation Technologygyygyg and E
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering)
43
1
2
3
5
6
4
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Data Science/Data Mining methods
• การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering)
44
1 6
4 5
2 3
ลูกค้าที่ใช้โทรเยอะ
ลูกค้าที่ส่ง SMS เยอะ
ลูกค้าที่ใช้งานไม่เยอะ
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
4. Modeling
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
45
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
Business Understanding�
Data Understanding�
Data Preparation� Modeling Evaluation Deployment
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
4. Modeling
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
46
Outlook
Humidity
= sunny = rainy
No
Yes Windy
= overcast
Yes No Yes
= high = normal = TRUE = FALSE
โมเดล decision tree
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
Business Understanding�
Data Understanding�
Data Preparation� Modeling Evaluation Deployment
ID Outlook Temperature Humidity Windy Play
1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
4. Modeling
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
47
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
Business Understanding�
Data Understanding�
Data Preparation� Modeling Evaluation Deployment
Outlook
Humidity
= sunny = rainy
No
Yes Windy
= overcast
Yes No Yes
= high = normal = TRUE = FALSE
ID Outlook Temperature Humidity Windy
1 sunny hot high FALSE
โมเดล decision tree
ข้อมูลที่ใช้ทดสอบ
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
4. Modeling
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
48
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
Business Understanding�
Data Understanding�
Data Preparation� Modeling Evaluation Deployment
Outlook
Humidity
= sunny = rainy
No
Yes Windy
= overcast
Yes No Yes
= high = normal = TRUE = FALSE
ID Outlook Temperature Humidity Windy
1 sunny hot high FALSE
โมเดล decision tree
ข้อมูลที่ใช้ทดสอบ
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Challenges for mining Big Data• Heterogeneous and Complex Data
• data types are varied such as Social Network data, Biological data, GIS
• data mining technique should take into the consideration relationships in the data such as network (graph) connectivity, temporal and spatial
• Scalability
• data sets with sizes of gigabytes, terabytes are becoming common.
• data mining technique can be improved by using sampling or developing parallel or distributed algorithms
49
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Variety• ข้อมูลมีความหลากหลาย
• Sequence
• เป็นข้อมูลลักษณะของตัวอักษรที่เรียงต่อกันเป็นลำดับ (sequence)
• ตัวอย่างเช่น web click stream sequence, DNA/Protein sequence
• Graph
• เป็นข้อมูลในรูปแบบของโหนด (node) ที่มีเส้นเชื่อมโยงถึงกัน (link)
• ตัวอย่างเช่น
• ความสัมพันธ์ของผู้ใช้งานเครือข่ายสังคมออนไลน์ (Social Network)
• ข้อมูลโครงสร้างทางเคมี (chemical structure)
• เครือข่ายคอมพิวเตอร์ (computer network)
50
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
51
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
52
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
53
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
<Finance, News> 2/6 = 33%
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
54
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
<Finance, News> 2/6 = 33%
<Sports, Finance> 2/6 = 33%
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Sequential Pattern Mining• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
55
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
<Finance, News> 2/6 = 33%
<Sports, Finance> 2/6 = 33%
<Sports, Finance, News> 2/6 = 33%
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Graph Mining• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น
บ่อย
56image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Graph Mining• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น
บ่อย
57image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Graph Mining• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น
บ่อย
58image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text Mining• การประยุกต์ใช้ข้อมูลประเภทข้อความ
• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์
59source:http://sentiment140.com และ http://www.techguide.com.au
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation• ในการวิเคราะห์ข้อมูลข้อความต้องทำการแปลงข้อมูลให้อยู่
ในรูปแบบที่มีโครงสร้าง
60
Laying on the sand sun hitting me, this feels good :)
Smells so good I have two :)
i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! :)
I think NYC would be amazing, I really wanna go there :)
he never care,he never look at me..:(
i am so tired!! and my feet hurt :(
positive
negative
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Bag of Words
• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ
61
ID Tweet Sentiment
1Laying on the sand sun hitting me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!
positive
4I think NYC would be amazing, I really wanna go there.
positive
5he never care,he never look at me.
negative
6i am so tired!! and my feet hurt.
negative
Term Count
Finding 1
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Bag of Words
• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ
62
ID Tweet Sentiment
1Laying on the sand sun hitting me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!
positive
4I think NYC would be amazing, I really wanna go there.
positive
5he never care,he never look at me.
negative
6i am so tired!! and my feet hurt.
negative
Term Count
Finding 1
I 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Bag of Words
• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ
63
ID Tweet Sentiment
1Laying on the sand sun hitting me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!
positive
4I think NYC would be amazing, I really wanna go there.
positive
5he never care,he never look at me.
negative
6i am so tired!! and my feet hurt.
negative
Term Count
Finding 1
I 3
Laying 1
MUCH 1
NYC 1
Nemo 1
Smells 1
always 1
am 1
amazing 1
and 1
at 1
be 1
but 1
care 1
Term Count
child 1
favourite 1
feels 1
feet 1
go 1
good 2
have 1
he 2
hitting 1
hood 1
hurt 1
i 3
look 1
me 1
… 1
bag of words
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Stemming• แปลงคำให้เป็นรากศัพท์ (root) เช่น finding แปลงเป็น find
64
Term Count
child 1
favourite 3
feels 1
feet 1
go 1
good 2
have 1
he 2
hitting 1
hood 1
hurt 1
i 3
look 1
me 1
… 1
Term Count
child 1
favourit 1
feel 1
feet 1
go 1
good 2
have 1
he 2
hit 1
hood 1
hurt 1
i 3
look 1
me 1
… 1
Term Count
Finding 1
I 3
Laying 1
MUCH 1
NYC 1
Nemo 1
Smells 1
always 1
am 1
amazing 1
and 1
at 1
be 1
but 1
care 1
Term Count
find 1
i 6
lai 1
much 1
nyc 1
nemo 1
smell 1
alwai 1
am 1
amaz 1
and 1
at 1
be 1
but 1
care 1
bag of words bag of words
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Text representation: Remove stopwords
• ตัดคำที่เป็น stop word ทิ้ง
65
Term Count
find 1
i 6
lai 1
much 1
nyc 1
nemo 1
smell 1
alwai 1
am 1
amaz 1
and 1
at 1
be 1
but 1
care 1
Term Count
child 1
favourit 1
feel 1
feet 1
go 1
good 2
have 1
he 2
hit 1
hood 1
hurt 1
look 1
me 1
… 1
Term Count
find 1
i 6
lai 1
nyc 1
nemo 1
smell 1
alwai 1
amaz 1
child 1
favorit 1
feel 1
feet 1
go 1
good 2
hit 1
Term Count
hood 1
hurt 1
look 1
care 1
movi 1
reali 1
remind 1
sand 1
sun 1
thi 1
think 1
tire 1
todai 1
wa 3
watch 1
remove stopwords
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Convert text to structured data• Binary occurrence ถ้ามีคำที่เกิดขึ้นในแต่ละเอกสารจะให้ค่าเป็น 1
ถ้าไม่เกิดขึ้นจะเป็น 0
66
ID find I lai nyc nemo smell alwai … Sentiment
1 0 0 1 0 0 0 0 … positive
2 0 1 0 0 0 1 0 … positive
3 1 1 0 0 1 0 1 … positive
4 0 1 0 1 0 0 0 … positive
5 0 0 0 0 0 0 0 … negative
6 0 1 0 0 0 0 0 … negative
attribute labelID Tweet Sentiment
1Laying on the sand sun hitting me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!
positive
4I think NYC would be amazing, I really wanna go there.
positive
5he never care,he never look at me.
negative
6i am so tired!! and my feet hurt.
negative
training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Convert text to structured data• Term Frequency คือจำนวนครั้งที่คำนั้นเกิดขึ้นในเอกสารทั้งหมด
• TF = จำนวนคำในเอกสาร/จำนวนคำทั้งหมดในเอกสาร
67
ID find I lai nyc nemo … Sentiment
1 0 0 0.17 0 0 … positive
2 0 0.17 0 0 0 … positive
3 0.17 0.33 0 0 0.17 … positive
4 0 0.33 0 0.17 0 … positive
5 0 0 0 0 0 … negative
6 0 0.17 0 0 0 … negative
attribute labelID Tweet Sentiment
1Laying on the sand sun hitting me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger!
positive
4I think NYC would be amazing, I really wanna go there.
positive
5he never care,he never look at me.
negative
6i am so tired!! and my feet hurt.
negative
training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Handle large corpus of text data• การนับจำนวนคำปกติจะเป็นแบบเรียงลำดับ (sequential) ทีละเอกสาร ดังนั้นถ้า
เอกสารมีจำนวนเยอะมากๆ จะทำงานได้้ช้า
• ใช้หลักการทำงานแบบขนาน (parallel) โดยใช้วิธีการของ Map/Reduce (Dean and
Ghemawat, OSDI 2004)
• Map, written by the user, takes an input pair and pro- duces a set of intermediate key/value pairs.
• จะเก็บในรูปแบบ (key1, value1) เช่น (“find”,1), (“I”,1), (“lay”,1), (“I”,1), (“I”,1)
• The Reduce function merges together values to form a possibly smaller set of values.
• จะเก็บในรูปแบบ (key1, list(value1)) เช่น (“find“,{1}), (“I“,{1,1,1}), (“lay“,{1})
• สุดท้ายจะได้จำนวนคำ คือ (“find”,1), (“I”,3) และ (“lay”,1)
68
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Map/Reduce Framework
69image source: http://www.infosun.fim.uni-passau.de/cl/MapReduceFoundation/
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Handle large corpus of text data
70
ID Tweet
1Laying on the sand sun hitting me, this feels good.
2Smells so good I have two.
ID Tweet
3
I watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when I was MUCH younger!
4I think NYC would be amazing, I really wanna go there.
ID Tweet
5he never care,he never look at me.
6 I am so tired!! and my feet hurt.
เครื่องที่ 1 เครื่องที่ 2 เครื่องที่ 3
map step
• (“Laying”,1) • (“on“, 1) …. • (“I“, 1)
• (“I“,1) • (“watched“, 1) …. • (“I“, 1)
• (“he“,1)
• (“never“, 1) ….
• (“I“, 1)
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Handle large corpus of text data
• (“he”,1)
• (“I”,{1,1,1,1,1,1}) => (“I”,6)
• (“Laying”,1)
• (“never”,1)
• (“on”, 1)
• (“watched”,1)
71
reduce stepmap step
• (“Laying”,1)
• (“on“, 1) ….
• (“I“, 1)
• (“I“,1) • (“watched“, 1) …. • (“I“, 1)
• (“he“,1) • (“never“, 1) …. • (“I“, 1)
เครื่องที่ 1
เครื่องที่ 2
เครื่องที่ 3
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Outline• Introduction to Big Data
• Introduction to Internet of Things (IoT)
• Introduction to Data Mining
• Big Data & Analytics applications
72
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications• ตัวอย่างการนำ Data Mining ไปใช้งาน
73source: http://www.youtube.com/watch?v=f2Kji24833Y
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications• บัตรสมาชิก (loyalty card)
• ติดตามพฤติกรรมการซื้อสินค้าของลูกค้าจากบัตร loyalty
• นำมาวิเคราะห์และนำเสนอเป็นโปรโมชันพิเศษให้แต่ละบุคคล
• เพิ่มโอกาสในการขายสินค้าให้กับลูกค้า
• กระตุ้นให้ลูกค้าได้ซื้อสินค้ามากขึ้น เช่น ซื้อสินค้าวันนี้ จะได้ส่วนลดพิเศษ ทำให้ลูกค้าเกิดการตัดสินใจซื้อทันที
74
image source: http://www.positioningmag.com
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications• ทราบพฤติกรรมการซื้อสินค้าของลูกค้า เพื่อนำมาวิเคราะห์ และ
นำเสนอเป็นโปรโมชันพิเศษให้แต่ละบุคคล
75
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications• เบียร์และผ้าอ้อม
• ห้าง Walmart พบว่าทุกวันศุกร์หลังบ่ายโมง จะมีลูกค้าเพศชายอายุระหว่าง 25 – 35 ปี ซื้อสินค้า Beers และ Diapers มากที่สุด
76
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications• คาดการณ์การตั้งครรภ์
• ห้าง Target ทำการวิเคราะห์พฤติกรรมการซื้อสินค้าของลูกค้าเพศหญิง
• พบรูปแบบ (pattern) ว่าถ้ามีการซื้อวิตามิน ซื้ออาหารบำรุง หรือ ซื้อตู้เตียงเพิ่ม ลูกค้าจะเริ่มตั้งครรภ์
• Target จะส่ง promotion ให้ลูกค้าเหล่านั้น
77
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications• แนะนำสินค้าที่เกี่ยวข้อง
• amazon.com แนะนำหนังสือที่เกี่ยวข้องกับ RapidMiner
• Netflix แนะนำภาพยนต์ที่คล้ายกับที่เคยดู เช่น Life of Pi
78
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications• Google Self-Driving Car
79source: https://www.youtube.com/watch?v=8fjNSUWX7nQ
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications• แนวโน้มราคาตั๋วเครื่องบิน
80
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
• คาดการณ์การลาออกของพนักงาน
Big Data & Analytics Applications
81
Receive Promotion
= NO = YES
Years with firm < 5
Not Quit
= YES = NO
Partner changed job
Quit Not Quit
= YES = NO
Quit
ตัวอย่างโมเดลคาดการณ์การลาออกของพนักงาน
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์
82
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ (ภาษาไทย)
83
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications• ทำนายอายุและเพศจากรูปภาพ
84source: http://www.how-old.net
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications• Paypal uses RapidMiner to detect churn and identify issues
85source: blob:https://rapidminer.com/63b65d64-0adb-4cc3-96bf-a5d5b88ee883
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications• How Etihad Airways Uses Big Data To Reach Its Destination
86source:https://datafloq.com/read/etihad-airways-big-data-reach-destination/412
Introduction to Big Data & Analytics
The First NIDA Business Analytics and Data Sciences Contest/Conference
วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์
https://businessanalyticsnida.wordpress.com
https://www.facebook.com/BusinessAnalyticsNIDA/
ดร.เอกสิทธิ์ พชัรวงศ์ศักดาอาจารย์ประจําหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ (Big
Data Engineering) วิทยาลัยนวัตกรรมเทคโนโลยีและ
วิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์
ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญ ดาต้า คิวบ์ (Data Cube)
นวมินทราธิราช 3001 วันที่ 1 กันยายน 2559 13.30-15.15 น.
แนะนํา Big Data และตัวอย่างต่างๆ
แนะนํา Internet of Things (IoT)
แนะนําเทคนิคการวิเคราะหข์้อมลูด้วย Data Mining
แนะนําการ Big Data Analytics เช่น stream mining, text mining
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Big Data & Analytics Applications• Business use cases
• Sales and marketing analytics
• Customer analytics
• Social media analytics
• Plant and facility management.
• Supply chain and channel analytics
• Fraud detection
• Price optimization
87
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases• Sales and marketing analytics
• The first involves using analytical models to improve how customer-facing applications make direct recommendations to the customer
• include better identifying opportunities for cross-selling and upselling
• decreasing abandoned shopping carts and generally improving the accuracy
of integrated recommendation engines
• The second type is intended to show the performance of the marketing group's processes and campaigns and recommend adjustments to optimize that performance.
• Analyzing which campaign addressed the needs of identified clusters or
segments
• the success ratios for motivating the campaigns' call to action.
88
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases• Customer analytics
• This includes analyzing customer demographics, behaviors and characteristics to develop models for
• segmenting customers
• predicting churn
• making next-best-offer recommendations to help with customer retention
• Social media analytics• The content that streams across social media channels provides ample
opportunities for analyzing customer sentiment and identifying brand riskswhen negative information is promulgated about a company's products
89
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases• Plant and facility management.
• As more devices and machines are Internet-enabled, organizations
are able to collect and analyze streaming sensor data indicating
continuous measures of power usage, temperature, humidity and
contaminant particles, among a myriad of potential variables.
• Models can be developed for predicting equipment failures and
scheduling pre-emptive maintenance to keep items in working order
without interruption.
90
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases• Supply chain and channel analytics
• Analyzing warehouse inventory, point-of-sale transactions and
shipments via a variety of channels (e.g., trucking, rail, shipping)
results in predictive analytical models that can help with
• pre-emptive replenishment
• inventory management strategies
• logistics management
• route optimization
• notifications when delays imperil timely deliveries
91
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases• Fraud detection
• An adjunct to the growing risk of identity theft is the growth of
fraudulent activity and transactions
• Financial institutions analyze billions of transactions to identify
patterns of fraudulent behavior, and the analytical models can also
trigger alerts to customers when a potential fraudulent transaction
might be taking place.
92
Big Data Engineering Program College of Innovation Technology and Engineering (CITE)
Business use cases• Price optimization
• Retailers looking to maximize overall profitability for product sales may develop analytical models that combine a variety of data streams, including competitors' prices, sales transactions across many geographic regions (to review demand), and information on production, inventories and the supply chain (to monitor supply).
• The resulting models can be used to dynamically adjust product prices up when supplies are low, demand is on the increase and competitors are unable to deliver, or down when inventory needs to be cleared as seasonal demand shifts.
93