answer sheet / global bike case study
TRANSCRIPT
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 1 of 23
12.3 Answer Sheet / Global Bike Case Study Nitin Kalรฉ, University of Southern California
Nancy Jones, San Diego State University
STUDENT NAME 60161051 ๊น๋ํ
Provide screenshots to support your answers.
Question 1: Identify two (2) interesting and distinctly different relationships amongst three or more variables of the data set and discuss each briefly. You might hypothesize as to why the relationships are what they are. For example, โIt makes sense that X is positively related to Y and Z because they are โฆ.โ
๊ณผ์ ์ํ์ ์์ ETL ๊ณผ์ ์ ๊ฑฐ์ณ Geographical Hierarchy, Time Hierarchy์
์๋กญ๊ฒ ๊ณ์ฐ๋ Dimension์ ์์ฑํ๋ ์์ ์ ์งํํ๋ค.
ํ์ฌ MEASURE ์ ์๋์ ๊ฒฝ๋๊ฐ SUM ์ผ๋ก ์ง๊ณ๋ ๊ฐ์ผ๋ก ์ ์ฅ๋์ด์๋ค. ๋ฐ๋ผ์ ์ง๊ณ๋ฅผ
NONE ์ผ๋ก ๋ฐ๊ฟ์ฃผ๋ ์์ ์ ๊ฑฐ์ณ์ผํ๋ค.
์ถ๊ฐ์ ์ผ๋ก Geographical HIERARCHY ๋ฅผ ์์ฑํ๊ธฐ ์ํด ๋ค์์ ์์ ์ ์งํํ๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 2 of 23
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 3 of 23
์ด ๊ณผ์ ์ ํตํด ์์ผ๋ก ๊ฐ Geography ์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ๋๋ฆด๋ค์ด์ผ๋ก ์ฌ์ฉํ ์ ์๋ค.
์ด์ด์ Time Hierarchy ๋ฅผ ์์ฑํ๊ธฐ ์ํด ๋ค์์ ์์ ์ ์งํํ๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 4 of 23
์ ๋ ์์ ์ ํตํด geo, time Hierarchy ๋ฅผ ์์ฑํด์ฃผ๋ฉฐ ์์ผ๋ก์ ๋ถ์์์ ์ ์ ์ฉํ๊ฒ ์ฌ์ฉํ ์
์๋ค.
์ถ๊ฐ์ ์ผ๋ก New Calculated Dimension ๊ธฐ๋ฅ์ ์ด์ฉํด Gross Margin in USD, Gross Margin
Ratio ๋ฅผ ์์ฑํ๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 5 of 23
Gross Margin Ratio์ ๊ฒฝ์ฐ SUM์ ์๋ฏธ๊ฐ ์์ด Average๋ก ์ง์ ํ๊ณ
Percentage๋ก ํฌ๋งทํ ์ ๋ณ๊ฒฝํ๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 6 of 23
Q.1) GBI ๋ฐ์ดํฐ์ ์ ์ด์ฉํ ๋ฐ์ดํฐ์ ๊ด๊ณ ์๋ณ
๋จผ์ GBI ์์ ํ๋งคํ๋ ์ ํ๋ค์ ๋ํด Revenue USD, Gross Margin Ratio, ProdCat, SalesOrg ๋ฅผ
์ด์ฉํด ์๋์ ํธ๋ฆฌ๋งต์ ์๊ฐํ ํ์๋ค.
์ ์ฐจํธ๋ Weight ๋ฅผ Revenue ๋ก, Color ๋ฅผ Gross Margin Ratio ๋ก ์ง์ ํด ๊ฐ Sales Org ๋ณ GBI ์
Key Figure ๋ค์ ๋ํ ์ ๋ณด๋ฅผ ํ ๋์ ํ์ธํ ์ ์๋ค. ์ ์ฐจํธ๋ฅผ ์ดํด๋ณด๋ฉด ๋๋ถ๋ถ์ ๋งค์ถ์ก์
๋ด๋นํ๋ SalesOrg ๋ TOU, ROB, ORB ์ธ ๊ฒ์ ํ์ธํ ์ ์๋ค. ํ์ง๋ง Gross Margin Ratio ๋ฅผ
ํ์ธํ์ ๋ ์ค์ ์์ต๋ฅ ์ด ๋์ SalesOrg ๋ ACC ์ ํด๋นํ๋ ๊ฒ์ ์ ์ ์๋ค. ๋ฐ๋ผ์ ํ์ฌ
GBI ์ ๊ฐ์ฅ ๋ง์ ๋งค์ถ์ก์ ๊ธฐ์ฌํ๋ TOU SalesOrg ๋ ์ค์ UE00, UW00 ์์ ์์ต๋ฅ ์ด ํ์ ํ
๋ฎ์ ๊ฒ์ผ๋ก ํ์ ๋๊ธฐ ๋๋ฌธ์ ์ด ์์ฅ์ ๋ํ ์ ๋ต๊ธฐํ์ด ํ์ํ ๊ฒ์ผ๋ก ๋ถ์๋๋ค.
์ด์ด์ Animation ์๊ฐํ๋ฅผ ํตํด ์๊ฐ์ด ํ๋ฆ์ ๋ฐ๋ผ ๊ฐ ์ง์ญ๋ณ ๋งค์ถ์ก์ด ์ด๋ป๊ฒ ๋ณํ๋์ง
ํ์ธํด๋ณด์๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 7 of 23
Revenue USD, Region, Country, Year ๋ณ์๋ฅผ ์ฌ์ฉํด์ ์ ๋๋ฉ์ด์ ์๊ฐํ๋ฅผ ์งํํ ๊ฒฐ๊ณผ ์ฐ๋๊ฐ
์ง๋จ์ ๋ฐ๋ผ ์ด๊ธฐ US ์์ฅ์ ์ฃผ ๋งค์ถ์ก์ ๊ธฐ์ฌํ๋ ์บ๋ฆฌํฌ๋์์ ๋งค์ถ์ก์ด ๊ฐ์ํ๋ฉฐ
Germany ์ ๋งค์ถ์ก์ด ์ฆ๊ฐํ๋ ์ถ์ธ๋ฅผ ๋ณด์ธ๋ค.
๋ฐ๋ผ์ ๋ ์ผ๊ณผ ๋ฏธ๊ตญ ์์ฅ์ ๊ฐ์ฅ ๋ง์ ๋งค์ถ์ก์ ๊ธฐ์ฌํ๋ Bavaria ์ California ์ ์ง์คํด
ํํฐ๋ง์ ์งํํ๊ณ ๋งค์ถ์ก๊ณผ ๋งค์ถ์๋์ ๋ํ ์ง์ญ๊ณผ ์ฐ๋๋ณ ๋ผ์ธ์ฐจํธ๋ฅผ ์๊ฐํ ํ ๊ฒฐ๊ณผ
์๋์ ๊ฐ์ ์ฐจํธ๋ฅผ ์ป์ ์ ์๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 8 of 23
์ ์ฐจํธ๋ฅผ ํตํด ์ฐ๋๊ฐ ์ง๋จ์ ๋ฐ๋ผ Germany ์ ๋งค์ถ์ก๊ณผ ๋งค์ถ์๋์ ์์นํ๋ ์ถ์ธ์ ์์ผ๋ฉฐ
์์ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ๋๋ค๊ณ ์ค๋ช ํ ์ ์๋ค.
๋ฐ๋๋ก US ์ ๊ฒฝ์ฐ California ์ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ฐ๋๊ฐ ์ง๋จ์ ๋ฐ๋ผ ๋งค์ถ์ก๊ณผ ๋งค์ถ์๋์ด
ํ๋ฝํ๋ ์ถ์ธ์ ์์ผ๋ฉฐ ์์ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ๋๋ค๊ณ ์ค๋ช ํ ์ ์๋ค.
Question 2: Explain to Nina why each of these visualizations is important to her team.
Q.2 ) 1 ์ฐจ ์๊ฐํ ์์ฌ์
์์ ์ฒซ๋ฒ์งธ ์ฐจํธ๋ฅผ ํตํด ๊ฐ SalesOrg ์ ProdCat ์ ๋ฐ๋ฅธ Revenue ์ Gross Margin Ratio ๋ฅผ
๋ถ์ํ๊ณ ๋๋ฒ์งธ ์ฐจํธ๋ฅผ ํตํด 2007 ๋ ์ดํ๋ถํฐ ๋ฏธ๊ตญ์ ์ฃผ ์์ฅ์ด์๋ ์บ๋ฆฌํฌ๋์๊ฐ ์์ถ๋จ๊ณผ
๋์์ ๋ฏธ๊ตญ ๋๋ถ์ ๋ ์ผ ์์ฅ์ด ํ์ฑํ๋๊ณ ์๋ค๋ ๊ฒ์ ํ์ธํ๋ค.
์ฒซ๋ฒ์งธ ์ฐจํธ๋ฅผ ํตํด ์ ์ ์๋ ์ฌ์ค์ TOU PrudCat ์ผ๋ก ๋ถํฐ ๋์ค๋ ๋๋ถ๋ถ์ ๋งค์ถ์ก์ด ์ค์
์์ต์จ์ ๊ฐ์ฅ ๋ฎ์ ๊ฒ์ผ๋ก ํ์ ๋์๊ณ ์คํ๋ ค ๋งค์ถ์ก์ด ๊ฐ์ฅ ์์ ACC ProdCat ์์ ์์ต์จ์ด
๊ฐ์ฅ ๋์ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค. ์ ํ์ ์๊ฐ๊ฐ ๋น์์๋ก ๋งค์ถ์ก์ด ๋์์ง๋ ๊ฒ์ ๋น์ฐํ๊ธฐ ๋๋ฌธ์
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 9 of 23
์ด๋ฌํ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ ์ ์์ง๋ง GBI ์ ์ด์ต์ ์ฆ์ง์ํค๊ธฐ ์ํด์ Cost ์ Discount ์ ๋ํ
์ ๊ฐ ์ ์ฑ ์ด ํ์ํ ๊ฒ์ผ๋ก ๋ถ์๋๋ค.
๋๋ฒ์งธ ์ฐจํธ์์ ์ ์ ์๋ ์ฌ์ค์ ๋ฏธ๊ตญ์์ ๊ฐ์ฅ ๋ง์ ๋งค์ถ์ก์ ๊ธฐ์ฌํ๋ ์บ๋ฆฌํฌ๋์ ์์ฅ์ด
์์ถ๋๋ฉด์ ์ ์ฐจ ๋ฏธ๊ตญ ๋๋ถ์์ฅ๊ณผ ๋ ์ผ ์์ฅ์ด ํ์ฑํ ๋๊ณ ์๋ค๋ ์ฌ์ค์ ๋ฐ๊ฒฌํ๋ค. ์ด๋ฅผ
ํตํด ์๊ฐ์ด ์ง๋๋ฉด์ ์บ๋ฆฌํฌ๋์์ ๋งค์ถ์ก์ด ์ค์ด๋ ์ด์ ๋ฅผ ๋ถ์ํ ํ์๊ฐ ์์ผ๋ฉฐ
GBI ์์๋ ๊ณ ๊ฐ ์ดํ ๋ฐฉ์ง๋ฅผ ์ํ ์ ์ฑ ์ด ํ์ํ ๊ฒ์ผ๋ก ๋ถ์๋๋ค.
Question 3: Nina Kane and her colleagues in Germany believe that Global Bike has 4 groups of customers with distinct characteristics. She also knows that customers have changed over the past few years and so any analysis that you provide on the groups should be focused on the newest data available. Create a cluster analysis for Nina. What can you tell Nina about the 4 customer groups? Use the following as a guide to help you answer this question.
Q.3 ) R-K means Clustering ๊ธฐ๋ฒ์ ์ด์ฉํ ๊ณ ๊ฐ ๋ถ๋ฅ
๊ธฐ์กด์ ๊ณ ๊ฐ ๋ถ๋ฅ๋ ๊ทธ๋ค์ ๋๋ ทํ ํน์ฑ์ ์ด์ฉํ์ฌ 4 ๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๊ตฌ๋ถํ์ง๋ง ์ง๋ ๋ช ๋ ๋์
๊ณ ๊ฐ์ ํน์ฑ์ด ๋ณํ๋ค๋ ์ฌ์ค์ ์ธ์งํ ์ํ์ด๊ธฐ์ Preprocessor ์ Filter ๋ฅผ ์ด์ฉํด ์๋์ ๊ฐ์ด
2019 ๋ ์ ๋ฐ์ดํฐ๋ก ํํฐ๋ง์ ์ง์ ํ๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 10 of 23
์ดํ R-K-Means ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํด 4 ๊ฐ์ Cluster ๋ก ๊ณ ๊ฐ์ ๋ถ๋ฅํ๋๋ฐ ์ ์ฒด Revenue USD,
Costs USD, Sales Quantity, Discounts USD, Gross Margin ๋ฅผ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 11 of 23
๋ง์ง๋ง์ผ๋ก CSV Writer๋ฅผ ์ด์ฉํด ๊ฐ ๊ณ ๊ฐ์ด ์ํ๋ Cluster์ ๋ํ ๋ ์ด๋ธ์
์ถ๊ฐํ CSV ํ์ผ์ ๋ก์ปฌ์ ์ ์ฅํ๋ค.
Question 4: Define how you clustered the transactions for Nina. What variables did you use? Did you have any preprocessors? If so, what were they?
ํ์ฌ ๋ ์ผ์์ ๊ทผ๋ฌดํ๋ Nina์ ๊ทธ๋ ์ ๋๋ฃ๋ค์ ๊ณ ๊ฐ์ด 4๊ฐ์ ๋๋ ทํ ํน์ฑ์
๊ธฐ๋ฐ์ผ๋ก ๊ตฌ๋ถ๋ 4๊ฐ์ ๊ทธ๋ฃน์ด ์กด์ฌํ๋ค๊ณ ์๊ฐํ๋ค. ํ์ง๋ง ์ต๊ทผ ์์ฅ์ ๋ณํ๋ก
๊ณ ๊ฐ์ ํน์ฑ์ด ๋ณํ์๊ณ ์ต๊ทผ์ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ๊ณ ๊ฐ์ ์๋กญ๊ฒ ๊ตฐ์งํ ํ์๋
๊ฒ์ด ์ด๋ฒ Task์ ๋ชฉํ์ด๋ค.
๋ฐ๋ผ์ R-K means Clustering์ ์งํํ๊ธฐ ์ Filter Preprocessor๋ฅผ ์ด์ฉํด Year
Dimension์ด 2019๋ ์ธ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ๊ณ ๊ทธ ๋ฐ์ดํฐ์ ๋ํด ์๋กญ๊ฒ ๊ตฐ์งํ๋ฅผ
์งํํ์๋ค.
์ถ๊ฐ์ ์ผ๋ก R-K means๋ ๋ฐ์ดํฐ์ ์์น์ ๊ฑฐ๋ฆฌ๋ฅผ ์ด์ฉํด ๊ตฐ์งํ๋ฅผ ์งํํ๊ธฐ
๋๋ฌธ์ ์์นํ ๋ฐ์ดํฐ๋ฅผ ์ ํํด ๊ตฐ์งํ๋ฅผ ์งํํ์๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 12 of 23
Question 5: What can you tell Nina about the relationships of the members of each cluster and the clustersโ relationships to each other? Perhaps a simple way to do this is to explain the Summary and/or the Cluster Representations produced by the algorithm. Include screen shots of the cluster results.
Cluster ์ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ๊ธฐ ์ํด Summart/Cluster Representation ์ ์ฌ์ฉํด ์๋์ ๋ํ๋ค์
ํ์ธํ๋ค.
์๋์ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ๋ฉด Cluster 1, 2, 3, 4 ์ค 1 ๊ณผ 2 ์ ํด๋นํ๋ ๊ณ ๊ฐ์ด ๊ฐ์ฅ ๋ง์ ๊ฒ์ผ๋ก
๋ํ๋๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 13 of 23
๋ํ Cluster Density ์ Distance ๋ฅผ ํ์ธํ ๊ฒฐ๊ณผ Cluster 4, 2, 3, 1 ์์๋ก Density ๊ฐ ๋ฎ์ ๊ฒ์
ํ์ธํ ์ ์์ผ๋ฉฐ Density ๊ฐ ๋ฎ๋ค๋ ๊ฒ์ ํด๋น ๊ตฐ์ง์ ์ํ๋ ๋ฐ์ดํฐ์ ์ ์ฌ์ฑ์ด ๋ฎ๋ค๋ ๊ฒ์
์๋ฏธํฉ๋๋ค. ๋ฐ๋ผ์ 4 ๋ฒ cluster ์ ๊ฒฝ์ฐ ๊ตฐ์ง์ ์์ง๋๊ฐ ๋ฎ์ผ๋ฉฐ ํฅํ Decision Cycle ์์
๊ฐ์ ์ด ํ์ํ ๊ฒฝ์ฐ Elbow Point ๋ฅผ ์กฐ์ ํด ๋ ๋ง์ Cluster ๋ก ๋ถํ ํ๋ ์์ ์ ๊ณ ๋ คํ ์ ์๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 14 of 23
๋ง์ง๋ง์ผ๋ก Feature Distribution ์ ํตํด ๊ฐ Cluster ๊ฐ ์ ์ฒด Gross Margin ์ ๊ธฐ์ฌํ๋ ๋ถํฌ๋ฅผ
ํ์ธํ๋ค.
์๋์ ๊ฒฐ๊ณผ๋ฅผ ํตํด Cluster 1 ๊ณผ Cluster 2 ๊ฐ ๋ง์ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง ์ค์ง์ ์ผ๋ก
๋์ ๋งค์ถ์ก์ ๊ธฐ์ฌํ๋ ๊ทธ๋ฃน์ ์๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ๋ฐ๋๋ก Cluster 3 ์ 4 ์ ๊ฒฝ์ฐ ๋ฐ์ดํฐ
๋ถํฌ๋ ์์ง๋ง ์ค์ ๋์ ๋งค์ถ์ก์ ๊ธฐ์ฌํ๋ ๊ทธ๋ฃน์ผ๋ก ํ์ธํ ์ ์๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 15 of 23
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 16 of 23
Question 6: Explain other characteristics of the clusters by creating properly structured visualizations, (one visualization each), of the following. Hint: be sure to use the cluster number as one of the dimensions in your visualization. Be sure to identify the aggregation of your measures for each chart, perhaps in the title.
a. Sales revenues by region and product category
Region, Product Category, Sales Revenue, Cluster number ๋ฅผ ์ด์ฉํ ์๊ฐํ๋ฅผ ์งํํ๊ธฐ ์ํด
Region Dimension ์ ์ง๊ด์ ์ผ๋ก ์๊ฐํ ํ ์ ์๋ Geo Bubble chart ๋ฅผ ์ ํํ๋ค.
Geo Bubble Chart ์ Value ๋ฅผ Revenue USD ๋ก, Geography ๋ฅผ ๋ฏธ๋ฆฌ ์์ฑํด๋์๋ regoin
ํ์ด๋ผํค๋ก ์ง์ ํ ํ Row ์ Column ์ Trellis ๋ฅผ ProdCat ๊ณผ ClusterNumber ๋ก ์ง์ ํ๋ค. ๊ทธ
๊ฒฐ๊ณผ ACC, TRE ์ ํ๊ตฐ์ ๋ํด์ ๊ฐ๊ฐ ClusterNumber 1 ๊ณผ 1, 2 ์๊ฒ๋ง ํ๋งค๋๊ณ ์๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 17 of 23
๋ํ ORB ์ ํ๊ตฐ์ 2, 4 ๋ฒ Cluster ๊ฐ ์ฃผ ์๋น์ธต์ด๋ฉฐ TOU ์ ํ๊ตฐ์ 4 ๋ฒ Cluster ๊ฐ ์ฃผ
์๋น์ธต์์ ์ ์ ์๋ค. (์ธ๊ธํ์ง ์์ ์ ํ๊ตฐ์ ๊ณจ๊ณ ๋ฃจ ๋ถํฌ)
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 18 of 23
b. Profitability (gross margin ratio) by customer and division
Customer ์ Division, ClusterNumber ์ ๋ฐ๋ฅธ Profitability(Gross Margin Ratio)๋ฅผ ๋ถ์ํ๊ธฐ ์ํด
์ฌ๋ฌ ์ฐจ์์ ๋ณ์๋ฅผ ์ง๊ด์ ์ผ๋ก ํํํ๊ธฐ ์๋ง์ Heatmap ์ฐจํธ๋ฅผ ์ด์ฉํ์ฌ Area Color ๋ฅผ Gross
Margin Ratio ๋ก, Area Name ์ CustDescr ๋ก, Area Name2 ๋ฅผ ClusterNumber, Division ์ผ๋ก
์ง์ ํ๊ณ ์๊ฐํ๋ฅผ ์งํํ ๊ฒฐ๊ณผ ์๋์ ๊ทธ๋ํ๋ฅผ ๊ทธ๋ฆด ์ ์๋๋ฐ ์๋์ ์๊ฐํ ๊ฒฐ๊ณผ๋ฅผ ํตํด
AS Division ์๋ ClusterNumber 1 ์ Customer ๊ฐ ์กด์ฌํ๊ณ Division BI ์๋ ๋ชจ๋
ClusterNumber ์ ๊ณ ๊ฐ์ด ์กด์ฌํ๋ค.
์ฌ๊ธฐ์ ์ฃผ๋ชฉํ ์ ์ ๋ชจ๋ ๊ณ ๊ฐ์ธต๊ณผ Division ์ ํตํ์ด์ AS Division ์ ClusterNuber 1 ๊ณ ๊ฐ์ธต์ด
๊ฐ์ฅ ๋์ ์์ต์ฑ์ ๋ณด์ ํ ๊ฒ์ผ๋ก ๋ถ์๋๋ค.
๋ํ BI Division ์์์ ์์ต์ฑ์ด ๋์ ์ง๋จ์ผ๋ก๋ Cluster 1 ๊ณผ 2 ๊ณ ๊ฐ์ธต์ด ์์ต์ฑ์ด ๋์
์ง๋จ์ผ๋ก ๋ถ์๋๋ค.
๊ณ ๊ฐ์ธต ๊ตฐ์งํ ์๊ฐํ ์์ฌ์
R-K means Clustering ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ ๊ณ ๊ฐ์ธต ๊ตฐ์งํ ์์ ์ ํตํด ๊ฐ ๊ตฐ์ง์ ๋ํ ํน์ฑ๊ณผ
์์ง๋๋ฅผ ๋น๊ต ๋ถ์ํ๊ณ ๊ทธ ๊ฒฐ๊ณผ 4 ๋ฒ Cluster ์ ์์ง๋๊ฐ ๋ฎ์ ๊ฒ์ ํ์ธํ๋ค. ๋ฐ๋ผ์ Decision
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 19 of 23
Cycle ์์ ๊ฐ์ ์ด ํ์ํ ๊ฒฝ์ฐ Elbow Point ๋ฅผ ์กฐ์ ํด ๊ตฐ์ง์ ๊ฐ์๋ฅผ ๋๋ ค ํด๋ฌ์คํฐ์
์์ง๋๋ฅผ ๋์ด๋ ๋ฐฉ์์ ํด๊ฒฐ์ฑ ์ผ๋ก ์ ์ํ ์ ์๋ค.
์์ ๋ ์๊ฐํ ๊ฒฐ๊ณผ๋ฅผ ํตํด ๊ฐ ๊ณ ๊ฐ์ธต์ด ์ด๋ค ์ ํ์ ์ ํธํ๊ณ ์ค์ ์์ต์ฑ๊ณผ ๋งค์ถ์ก์
์ด๋ป๊ฒ ๋ถํฌํ๋์ง ์ฝ๊ฒ ํ์ ํ ์ ์๋ค. ์ค์ ์ฐจํธ ๊ฒฐ๊ณผ๋ฅผ ํตํด ๊ฐ ๊ณ ๊ฐ์ธต์ ๋ฐ๋ผ ์ ํธํ๋
์ ํ๊ตฐ์ด ๋ช ํํ ๋ค๋ฅด๊ฒ ๋ถํฌํ ๊ฒ์ ํ์ธํ ์ ์๋ค.
Question 7: The sales team is also interested in sales trends overall. Create a forecast of sales for the next 48 months. Hint: use Triple Exponential Smoothing instead of R-Triple Exponential Smoothing for this forecast for โbetterโ results.
a. Explain what value of alpha, beta, and gamma you chose and why you chose what you did.
SAP PA ์ Predict ํญ์ผ๋ก ์ด๋ํด Time Series ์ Triple Exponential Smoothing ์ ์ ํํด ์๋์
๊ฐ์ด Outcome Mode ๋ฅผ Forecast ๋ก ์ง์ ํ๊ณ ํฅํ 48 ๊ฐ์์ ๋ฐ์ดํฐ๋ฅผ ์์ธกํ๊ฒ ๋ค๊ณ ์ง์ ํ๋ค.
๋ํ ์์ธก์ด ์ํ๋๋ Target Values ๋ Revenue USD ์ด๋ฉฐ Date Column ์ผ๋ก Time Series
ํ์ด๋ผํค๋ฅผ ์ ํํ ํ Period ๋ฅผ Month ๋ฅผ ์ง์ ํ๋ค.
์ด๋ฒ Task ์ ๋ชฉ์ ์ Sales ํ์์ ์ ๋ฐ์ ์ธ Sales Trend ๋ฅผ ์ํ๊ธฐ ๋๋ฌธ์ Currency ์ USD ์
EUR ์ ํํฐ๋ง์ ์๋ตํ๋ค. ์๋ํ๋ฉด ์ด๋ฏธ EUR ์ด Revenue USD ๋ก ํ์จ์ด ๋ณ๊ฒฝ๋์ด ์๊ณ ๊ทธ
ํ์จ์ด ๋ณ๊ฒฝ๋ Revenue USD ๋ก Forecasting ์ ์งํํ๊ธฐ ๋๋ฌธ์ด๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 20 of 23
์ ์์ ์ด ๋๋๋ฉด Advanced ํญ์ผ๋ก ์ด๋ํด Triple Exponential Smoothing ์ ์ฌ์ฉํ Alpha, Beta,
Gamma ๋ฅผ ์ง์ ํ ์ ์๋๋ฐ ์ํ๋ ํํ์์๋ก ์ต๊ทผ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ํ๋ ๋น์จ์ ์๋ฏธํ๋ฉฐ
๋ฒ ํ๋ Trend, ๊ฐ๋ง๋ Seasonality ๋ฅผ ์๋ฏธํ๋ค.
์ด ์์ ์์๋ Alpha, Beta, Gamma ๋ฅผ ๊ฐ๊ฐ 0.3, 0.1, 0.2 ๋ก ์ง์ ํด์ฃผ์๋ค.
์ฌ๊ธฐ์ Gamma ๊ฐ์ 0.2 ๋ก ์ง์ ํ ์ด์ ๋ GBI ์์ ํ๋งคํ๋ ์ ํ์ ์์ ๊ฑฐ๋ก Sales Revenue
๋ฐ์ดํฐ๊ฐ ๊ณ์ ์ฑ์ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ด๋ค.
b. Is the forecast reliable? Why or why not?
Triple Exponential Smoothing ์ด ์๋ฃ๋๊ณ ์ฑ๋ฅ ํ๊ฐ์งํ๋ฅผ ํ์ธํ๋ฉด ๋ํ์ ์ผ๋ก ์ง๊ด์ ์ธ ํ๊ฐ
์งํ๋ก RMSE ๋ฅผ ์ฌ์ฉํ ์ ์๋๋ฐ ์ด๋ฅผ ํตํด ์ค์ ์ฝ 2 ์ฒ ~ 3 ์ฒ๋ง์ ์ด๋ฅด๋ Revenue ์ ์ฝ
1 ๋ฐฑ๋ง ์ ๋ ์ฐจ์ด๊ฐ ๋ ์ ์๋ค๊ณ ํ๋จํ ์ ์๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 21 of 23
Reference : https://dailyheumsi.tistory.com/167#rmse-root-mean-squared-error
Reference :https://otexts.com/fppkr/least-squares.html
๋ํ R-square ๊ฐ์ด ์ฝ 0.93์ผ๋ก ์ธก์ ๋๋ฉฐ ์ด๋ ์์ธก ๊ฐ๊ณผ ์ค์ ๊ฐ์ด ๊ฐ๊น์ด
์ ๋๋ฅผ ๋ํ๋ด๋ ์งํ๋ก 0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ ๊ฐ๊ธฐ ๋๋ฌธ์ ์ ๋ชจ๋ธ์ ์ ๋ขฐ๋๊ฐ ๋์
Forecast ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 22 of 23
์๋์ Forecasting ๊ฒฐ๊ณผ๋ฅผ ํตํด ํฅํ 48 ๊ฐ์, 4 ๋ ๊ฐ์ Revenue ๋ฅผ ์์ธกํ์๊ณ ์ฐจํธ์ Trend ๋ฅผ
ํตํด ํด๊ฐ ์ง๋ ์๋ก ์ ์ฐจ Revenue ๊ฐ ์ฆ๊ฐํ ๊ฒ์ผ๋ก ์์ธก๋๊ณ 2023 ๋ ์ Total Revenue ๊ฐ ์ฝ
4 ์ฒ๋ง์ ์ด๋ฅผ ๊ฒ์ผ๋ก ์์๋๋ค.
์๋์ Forecasting ๊ฒฐ๊ณผ๋ฅผ ํตํด ํฅํ 48 ๊ฐ์, 4 ๋ ๊ฐ์ Revenue ๋ฅผ ์์ธกํ์๊ณ ์ฐจํธ์ Trend ๋ฅผ
ํตํด ํด๊ฐ ์ง๋ ์๋ก ์ ์ฐจ Revenue ๊ฐ ์ฆ๊ฐํ ๊ฒ์ผ๋ก ์์ธก๋๊ณ 2023 ๋ ์ Total Revenue ๊ฐ ์ฝ
4 ์ฒ๋ง์ ์ด๋ฅผ ๊ฒ์ผ๋ก ์์๋๋ค.
Triple Exponential Forecasting ์์ฌ์
Triple Exponential Forecasting ์ ์งํํ์ฌ GBI ์ ํฅํ 48 ๊ฐ์์ Sales Revenue ๋ฅผ ์์ธกํ๋ค.
Triple Exponential Forecasting ๊ธฐ๋ฒ์ ์๋ง์ ์์ธก ๋ชจ๋ธ์ ๋นํด ์์์ด ๋จ์ํ๋ฉด์๋ ์์ธก ์ฑ๋ฅ
๋ํ ์ฐ์ํ ๋ชจ๋ธ์ด๋ค. ๋ฐ๋ผ์ ์ผ๋ณ, ์ฃผ๋ณ, ์๋ณ๋ก ์ฆ์ ์์ธก์ด ํ์ํ ๊ฒฝ์ฐ์ ์ ํฉํ ์์ธก
๋ฐฉ๋ฒ์ด๋ฉฐ ์ง๊ธ๊ณผ ๊ฐ์ ๊ฒฝ์ฐ ์ธ์๋ ํน์ ์ง์ญ์ ํน์ ๊ณ ๊ฐ์ธต์ ๋ํ ์ ํ ์์๋ฅผ ์์ธกํ๋
์ํฉ์๋ ์ ํฉํ๊ฒ ์ฌ์ฉํ ์ ์๋ค.
Triple Exponential Forecasting ์ ์งํํ๋ฉด์ Alpha, Beta, Gamma ๋ฅผ ์ธํ ํ๋ ์์ ์ด ํ์ํ๋ฐ
์ด๋ ์ํฉ๊ณผ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ์ง์์ ์ผ๋ก ์ ํฉํ ์กฐ์ ์ด ํ์ํ ๊ฒ์ด๋ค.
Practical Analytics Chapter 12 | Exercise 3 | Edition 2
Nitin Kalรฉ & Nancy Jones ยฉ 2020 23 of 23
๊ณผ์ ์ํ ํ๊ธฐ
์ด๋ฒ ๊ธฐ๋ง ๊ณผ์ ๋ฅผ ์ํํ๋ฉด์ ์ค์ GBI ์ ๋ฐ์ดํฐ ๋ถ์ ์ ๋ฌด๋ฅผ ๋งก์ ์ง์์ด๋ผ๊ณ ์์ํ์ต๋๋ค.
์ด๋ฒ ๊ณผ์ ๋ ์ด์ ์ ๊ณผ์ ์๋ ๋ฌ๋ฆฌ ์ด๋ฒ ํ ํ๊ธฐ ๋์ ๋ฐฐ์ด ๋ชจ๋ ๋ด์ฉ์ ์ข ํฉ์ ์ผ๋ก ๋ค๋ฃฌ๋ค๋
์ ์์ ๋งค์ฐ ์ธ์์ ์ด์์ต๋๋ค. ๋ํ ๊ฐ์ธ์ ์ผ๋ก ์ด๋ฒ ๊ณผ์ ์์ ๊ฐ์ฅ ๊ฐ์น ์๊ฒ ๋๊ปด์ง ๋ถ๋ถ์
SAP PA ๋ผ๋ ์๊ฐํ ํด์ ์ด์ฉํด ์๋ง์ ์ํ์ฐฉ์ค๋ฅผ ๊ฒช์ผ๋ฉฐ ์ฐจํธ๋ฅผ ์์ฑํ๋ค๋ ๊ฒ์ด๊ณ ๊ทธ
๊ณผ์ ์์ ์๊ฐํ ํ๊ธฐ ์ํ๋ ์ถ์์ ์ธ ์ด๋ฏธ์ง๊ฐ ๋จธ๋ฆฟ์์ ๊ทธ๋ ค์ง๋ฉด ์์ฐ์ค๋ฝ๊ฒ ํด์
์กฐ์ํ๋ ๋ฅ๋ ฅ์ด ํจ์๋์์ต๋๋ค.
ERP DA ๊ฐ์๋ฅผ ์๊ฐํ๋ฉฐ ์ป์ ์ง์๊ณผ ๊ฒฝํ์ ๋ฐํ์ผ๋ก ์์ผ๋ก ํ๊ฑธ์ ๋ ์ฑ์ฅํ๋ ํ์์ด
๋๊ฒ ์ต๋๋ค. ํ ํ๊ธฐ ๋์ ๊ณ ์ ๋ง์ผ์ จ์ต๋๋ค. ๊ฐ์ฌํฉ๋๋ค ๊ต์๋!
Hints
โข Create a geo hierarchy with targeted dimension of City and Geographical level City.
โข Avoid using column or bar charts for every answer.