use of google trends data to improve survey measures of retail … · 2017. 11. 21. · 2010-12...
TRANSCRIPT
Use of Google Trends Data to Improve Survey Measures of Retail Trade
1
Presented by Valerie Chauvin, written by Francois Robin
• Context• Retail trade survey• e-commerce in the survey• Late release of FEVAD data
• Google Trends & Aggregated model• Google Trends series• Selecting variables• Aggregating
• Conclusion• Encouraging results• Limits
2
• Available on the internet :
https://www.banque-france.fr/statistiques/chiffres-cles-france-et-etranger/enquetes-de-
conjoncture/conjoncture-commerce-de-detail
• Quantitative index based on : Y-o-y growth of turnover of a balanced panel Declared by distribution channel (hyper/supermarkets, chain
stores, independant shops,…) And by products (Do it yourself, furniture, appliances,
clothing,…)
• Incorporated by INSEE in quarterly national accounts
Retail trade survey
3
E-commerce in the survey
4
Retail trade
By product and by distribution channel
Product 1 Product 2 Product N…
Independantshops
Specialisedsuperstores
Distance sellingHyper et
SupermarketsDepartment
stores
E-commerce in the survey
5
Cooperation with FEVAD
- Well-known professional federation . - Preliminary work (data consistency, trend over time)- e-commerce: fast-changing population - High cost to follow the players using standard panel practices
Collecting and computing system
(Sirce)Unadjustedaggregates
Seasonaladjustment
AnalysisDissemination- …
Turnover for shops
FEVAD
Collected
Collected
FEVAD turnover compiled late
6
Month M Month M+1
Release SurveyM-1
M-1 turnover for FEVAD
Release Survey M
- FEVAD turnover for M-1 included in the second release
- 6 FEVAD aggregatesestimated for the first release
Consumer electronics Household Appliances
FurnitureClothing Footwear
Fevad turnover : gathered for different products and total sales
Total distance sales
Google Trends Data
7
Geographic scope of searches
Back to 2004 at the earliest
Relative maximum Set at 100
Rounded values[Kozicki & Hoffman]
5 searchesmaximum
• Indices computed from samples• Monthly data
• Also used [Choi H. et Varian H. (2011), Askistas N. & Zimmerman K. F. (2009)]
• Correlations between two drawings:
• Sectoral seasonality:
Robustness
8
Amazon Cdiscount Fnac eBay Carrefour
99,96% 99,50% 99,95% 99,98% 99,21%
0
10
20
30
40
50
60
70
80
2010
-12
2011
-220
11-4
2011
-620
11-8
2011
-10
2011
-12
2012
-220
12-4
2012
-620
12-8
2012
-10
2012
-12
2013
-220
13-4
2013
-620
13-8
2013
-10
2013
-12
2014
-220
14-4
2014
-620
14-8
2014
-10
2014
-12
2015
-220
15-4
2015
-620
15-8
2015
-10
2015
-12
2016
-220
16-4
Google Trends index- consumer electronics
Fnac
Darty
Boulanger
Données Google
Data: Google
Modelling
9
• VAR, ARIMAX, standard regressions,..
• Y: index for e-turnover by product• X: Google Trends series or index for turnover in
traditional distribution channel• t: trend• γImois : seasonal dummies
• Monthly data from January 2012 to May 2017
Which data?
10
Tested change
SA LN I(d)
StationarityResiduals
Seasonaladjustment
Some series I(1)[Granger C. & Newbold P. (1974)Phillips P. (1986)]
0
20
40
60
80
100
120
2004
-01
2004
-05
2004
-09
2005
-01
2005
-05
2005
-09
2006
-01
2006
-05
2006
-09
2007
-01
2007
-05
2007
-09
2008
-01
2008
-05
2008
-09
2009
-01
2009
-05
2009
-09
2010
-01
2010
-05
2010
-09
2011
-01
2011
-05
2011
-09
2012
-01
2012
-05
2012
-09
2013
-01
2013
-05
2013
-09
2014
-01
2014
-05
2014
-09
2015
-01
2015
-05
2015
-09
2016
-01
2016
-05
2016
-09
2017
-01
2017
-05
Poi
nts
d'in
dice
Evolution of Google Trends queries on footwear
Spartoo
Sarenza
Zalando
Chaussures
Data Google
Emerging phenomenom
11
StepwiseRegression
Google Correlate
PCA
Selecting variables
step 0 : Constant only
steps i : inclusion(Forward) orSuppression (Backward)of the variable optimising the selection criterium (BIC)
Step n : Final model
For each iteration of the backtest :
Chosen variables:Significant, among the
Most often selected
12
Variables for total sales
13
0.0
20.0
40.0
60.0
80.0
100.0
120.0
140.0
160.0
2012
-01
2012
-03
2012
-05
2012
-07
2012
-09
2012
-11
2013
-01
2013
-03
2013
-05
2013
-07
2013
-09
2013
-11
2014
-01
2014
-03
2014
-05
2014
-07
2014
-09
2014
-11
2015
-01
2015
-03
2015
-05
2015
-07
2015
-09
2015
-11
2016
-01
2016
-03
2016
-05
2016
-07
2016
-09
2016
-11
2017
-01
2017
-03
Inde
x
Index and Top 15 of e-commerce B2CIndice - General
Amazon.com
Cdiscount
Fnac
eBay
Carrefour
PriceMinister
E.Leclerc
Darty
La Redoute
Vente-privee.com
Leroy Merlin
Boulanger
Auchan
Rue du commerce
Castorama
Too many variables PCA ?Data: Google-FEVADComputation: SEEC
Chosen GT queries by products
14
Footwear Furniture ClothingConsumer electronics
t
Householdappliances
Spartoo Ikea Kiabi cDiscount GrosBill
Zalando Leroy Merlin H&M Amazon Carrefour
Sarenza Conforama Robe + Jupe Deezer Amazon
Chaussures Maisons du monde Jeans + Pantalon FNAC Darty
Botte Meuble La Redoute Boulanger
Sandale
Methodology
15
All sample
01/2012 04/2017T-h T
Estimation period (calibrating) :1 model = 1 set of variables
T+1
1 ForecastFinal forecast
Retail tradeforecast
Google Trends
forecast
SARIMA forecast
(Benchmark)
Aggregation[Mogliani & Bec (2015)]
-0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
janv
.-15
févr
.-15
mar
s-15
avr.
-15
mai
-15
juin
-15
juil.
-15
août
-15
sept
.-15
oct.
-15
nov.
-15
déc.
-15
janv
.-16
févr
.-16
mar
s-16
avr.
-16
mai
-16
juin
-16
juil.
-16
août
-16
sept
.-16
oct.
-16
nov.
-16
déc.
-16
janv
.-17
févr
.-17
mar
s-17
avr.
-17
mai
-17
Evolution of the weights – Total sales
gTrends CD SARIMA
Bayesian aggregation
16
Calcul SEEC
[Zeugner (2011), Hoeting, Madigan, Raftery & Volinsky (1999)]
Encouraging results: the case for footwear
17
80
100
120
140
160
180
200
220
janv
.-15
févr
.-15
mar
s-15
avr.
-15
mai
-15
juin
-15
juil.
-15
août
-15
sept
.-15
oct.
-15
nov.
-15
déc.
-15
janv
.-16
févr
.-16
mar
s-16
avr.
-16
mai
-16
juin
-16
juil.
-16
août
-16
sept
.-16
oct.
-16
nov.
-16
déc.
-16
janv
.-17
févr
.-17
mar
s-17
avr.
-17
mai
-17
Inde
x
Predicted index by model - Footwear
FEVAD
gTrends
CD
SARIMA
Agrégé
Data: Google-FEVAD-BdFComputation: SEEC
Footwear
18
-30
-20
-10
0
10
20
30
40
janv
.-15
févr
.-15
mar
s-15
avr.
-15
mai
-15
juin
-15
juil.
-15
août
-15
sept
.-15
oct.
-15
nov.
-15
déc.
-15
janv
.-16
févr
.-16
mar
s-16
avr.
-16
mai
-16
juin
-16
juil.
-16
août
-16
sept
.-16
oct.
-16
nov.
-16
déc.
-16
janv
.-17
févr
.-17
mar
s-17
avr.
-17P
oint
s d’
indi
ce
Forecasting errors for models- Footwear
gTrends
CD
Benchmark
Cible
Data: Google-FEVAD-BdFComputation: SEEC
RMSFE Google Trends CD ARIMA Cible
Total 8,3 3,4* 4,3 1,7
Footwear 12,2 10,7 12,7 3,9
Furniture 10,1 9,5 10,9 7,9
Clothing 5,3 6,4 5,6 2,4
Consumer electronics
12,9 15,3 14,1 9,5
Householdappliances 8,5 7,2 8,4 4,5
Summarised results: unadjusted series
19
Data: Google-FEVAD-BDFComputation: SEEC
• Google Trends Data out of the reach of statisticians:- Unknown counting method- Evolutions in search engine
• Fast-changing phenomenon- Players quickly in and out- Link between internet search and purchaseModels need to be revised (every year)
• Short backtesting period (24 months)
Limits
20
• Positive results
• Multidimensional information
• Use in production
Conclusion
21
Annexes
22
Robustesse
23 Données GoogleCalcul SEEC
Requêtes Google Trends
SpartooSarenza
CarrefourAuchanE.Leclerc
DartyBoulangerFNAC
AmazoncDiscountRueDuCommerce
La Redoute3 Suisses
Robustesse
24 Données GoogleCalcul SEEC
• Corrélations stables dans le temps
• Partition par produit
Général
25
80
90
100
110
120
130
140
150
160
170
janv
.-15
févr
.-15
mar
s-15
avr.
-15
mai
-15
juin
-15
juil.
-15
août
-15
sept
.-15
oct.
-15
nov.
-15
déc.
-15
janv
.-16
févr
.-16
mar
s-16
avr.
-16
mai
-16
juin
-16
juil.
-16
août
-16
sept
.-16
oct.
-16
nov.
-16
déc.
-16
janv
.-17
févr
.-17
mar
s-17
avr.
-17
mai
-17
Poi
nts
d'in
dice
Indices prédits par les différents modèles - Général
FEVAD
gTrends
CD
Benchmark
Cible
Données Google-FEVAD-BDFCalculs SEEC
Électroménager
26
80
90
100
110
120
130
140
150
160
170
180
janv
.-15
févr
.-15
mar
s-15
avr.
-15
mai
-15
juin
-15
juil.
-15
août
-15
sept
.-15
oct.
-15
nov.
-15
déc.
-15
janv
.-16
févr
.-16
mar
s-16
avr.
-16
mai
-16
juin
-16
juil.
-16
août
-16
sept
.-16
oct.
-16
nov.
-16
déc.
-16
janv
.-17
févr
.-17
mar
s-17
avr.
-17
mai
-17
Poi
nts
d'in
dice
Indices prédits par les différents modèles - Eléctroménager
FEVAD
gTrends
CD
Benchmark
Cible
Données Google-FEVAD-BDFCalculs SEEC
Électronique grand public
27
0
50
100
150
200
250
300
350
400
janv
.-15
févr
.-15
mar
s-15
avr.
-15
mai
-15
juin
-15
juil.
-15
août
-15
sept
.-15
oct.
-15
nov.
-15
déc.
-15
janv
.-16
févr
.-16
mar
s-16
avr.
-16
mai
-16
juin
-16
juil.
-16
août
-16
sept
.-16
oct.
-16
nov.
-16
déc.
-16
janv
.-17
févr
.-17
mar
s-17
avr.
-17
mai
-17
Poi
nts
d'in
dice
Indices prédits par les différents modèles - EGP
FEVAD
gTrends
CD
Benchmark
Cible
Données Google-FEVAD-BDFCalculs SEEC
Meubles
28
70
90
110
130
150
170
190
210
janv
.-15
févr
.-15
mar
s-15
avr.
-15
mai
-15
juin
-15
juil.
-15
août
-15
sept
.-15
oct.
-15
nov.
-15
déc.
-15
janv
.-16
févr
.-16
mar
s-16
avr.
-16
mai
-16
juin
-16
juil.
-16
août
-16
sept
.-16
oct.
-16
nov.
-16
déc.
-16
janv
.-17
févr
.-17
mar
s-17
avr.
-17
mai
-17
Poi
nts
d'in
dice
Indices prédits par les différents modèles - Meubles
FEVAD
gTrends
CD
Benchmark
Cible
Données Google-FEVAD-BDFCalculs SEEC
Habillement
29
60
65
70
75
80
85
90
95
100
105
110
janv
.-15
févr
.-15
mar
s-15
avr.
-15
mai
-15
juin
-15
juil.
-15
août
-15
sept
.-15
oct.
-15
nov.
-15
déc.
-15
janv
.-16
févr
.-16
mar
s-16
avr.
-16
mai
-16
juin
-16
juil.
-16
août
-16
sept
.-16
oct.
-16
nov.
-16
déc.
-16
janv
.-17
févr
.-17
mar
s-17
avr.
-17
mai
-17
Poi
nts
d'in
dice
Indices prédits par les différents modèles - Habillement
FEVAD
gTrends
CD
Benchmark
Cible
Données Google-FEVAD-BDFCalculs SEEC
RMSFE Google Trends CD ARIMA Cible
General 8,5 2,4* 4,3 1,6
Chaussures 13,2 11,2 12,7 4,7
Meubles 10,7 8,6 10,9 7,4
Habillement 5,6 6,0 5,6 2,2
EGP 9,1 11,4 14,1 6,6
Électroménager 7,9 7,6 8,4 5,3
Résultats majeurs : Données log
30
Données Google-FEVAD-BDFCalculs SEEC
RMSFE Google Trends CD ARIMA Cible
General 4,6 3,3* 4,3 1,7
Chaussures 10,7 11,4 12,7 5,0
Meubles 9,2 8,2 10,9 7,6
Habillement 5,1 5,5 5,6 2,8
EGP 9,4 14,0 14,1 11,6
Électroménager 8,0 8,3 8,4 7,3
Résultats majeurs : Données CVS
31
Données Google-FEVAD-BDFCalculs SEEC
RMSFE Google Trends CD ARIMA Cible
General 8,7 2,7* 4,3 1,9
Chaussures 16,2 14,8 12,7 7,2
Meubles 14,4 12,0 10,9 10,7
Habillement 8,9 9,2 5,6 5,5
EGP 14,3 17,8 14,1 13,3
Électroménager 12,1 9,7 8,4 5,9
Résultats majeurs : Données différenciées
32
Données Google-FEVAD-BDFCalculs SEEC
33
0
20
40
60
80
100
120
10/06/2012 10/06/2013 10/06/2014 10/06/2015 10/06/2016
Poi
nts
d'in
dice
Requêtes Google
Zlatan Ibrahimovic - catégorie
Ibrahimovic - hors catégorie
Zlatan - hors catégorie
Zlatan Ibrahimovic - hors catégorie
Zlatan + Ibrahimovic - hors catégorie
Méthodologie Google ?