le data scientist : enjeux du profil, impacts sur les ... · on entrevoit alors le problème de...
Post on 12-Jun-2020
2 Views
Preview:
TRANSCRIPT
Le Data Scientist : enjeux du profil, impacts sur les organisations
Programme : MASTERE - 2014 - Grenoble (2013 - 2014)
Année : 2013-2014
EA - Session de programme : Mission Thèse 2013-2014
Nom de l'étudiant : Pougnard Raphaël
Nom du tuteur / évaluateur : Pigni Federico
A renseigner s'il s'agit d'une alternance:
Nom de l'entreprise : CGI
Ville : Grenoble
Pays : France
Fonction occupée durant le stage : Consultant en Business Intelligence
Résumé informatif de la mission :
Les données sont des actifs que les organisations devront recentrer dans les processus décisionnels stratégiques et opérationnels pour saisir de nouvelles opportunités, mieux connaitre leur marché et mieux se connaitre elles-mêmes. Ces activités nouvelles font appel à des ressources techniques, technologiques, mais surtout humaines inédites. Nouveau métier peu connu et mal défini, le Data Scientist a potentiellement de forts impacts sur l’avenir de l’entreprise.
Quelles missions rentrent dans son champ d’action ? Quelles compétences techniques, business et humaines doit il avoir ? Quel est son rôle vis-à-vis du reste de l’entreprise ? Où se place-t-il dans l’organisation ? A quel moment les entreprises devraient-elle le recruter ? Quel management adopter pour des projets si transverses ?
Par une analyse lexicale d’offres d’emploi, des entretiens avec des professionnels du secteur, et des études de cas, cette thèse définit le profil complexe du Data Scientist. Le recueil d’informations selon six axes, son analyse, et les conclusions nous ont permis de tirer des recommandations pratiques sur les missions stratégiques qu’il aura à mener ; à mieux définir ses interactions avec les métiers et la DSI ; à cerner les compétences, savoirs, et savoirs-être qu’il devra avoir; à décider d’un modèle de placement selon la chaine de valeur de l’organisation ; à préciser le tempo dans lequel l’entreprise doit investir ; et à émettre des conseils sur les méthodologies à utiliser.
Mots-clés principaux décrivant la mission
INFORMATIQUE - ANALYSE INFORMATIQUE
SCIENCE DU MANAGEMENT - AIDE A LA DECISION
MANAGEMENT - MANAGEMENT TECHNOLOGIQUE
TRAITEMENT DE L'INFORMATION - ANALYSE DE L'INFORMATION
Non Confidentiel Confidentiel
2
CGI & GRENOBLE ECOLE DE MANAGEMENT
Etude de cas : TOTAL MARKETING & SERVICES
Le Data Scientist : enjeux du profil, impacts sur les organisations
Thèse Professionnelle de Mastère spécialisé en Management Technologique et Innovation
Raphaël Pougnard
04/12/2014
3
INTRODUCTION
RESUME
Les données sont des actifs que les organisations devront recentrer dans les processus
décisionnels stratégiques et opérationnels pour saisir de nouvelles opportunités, mieux
connaitre leur marché et mieux se connaitre elles-mêmes. Ces activités nouvelles font appel
à des ressources techniques, technologiques, mais surtout humaines inédites. Nouveau
métier peu connu et mal défini, le Data Scientist a potentiellement de forts impacts sur
l’avenir de l’entreprise.
Quelles missions rentrent dans son champ d’action ? Quelles compétences techniques,
business et humaines doit il avoir ? Quel est son rôle vis-à-vis du reste de l’entreprise ? Où
se place-t-il dans l’organisation ? A quel moment les entreprises devraient-elle le recruter ?
Quel management adopter pour des projets si transverses ?
Par une analyse lexicale d’offres d’emploi, des entretiens avec des professionnels du
secteur, et des études de cas, cette thèse définit le profil complexe du Data Scientist. Le
recueil d’informations selon six axes, son analyse, et les conclusions nous ont permis de tirer
des recommandations pratiques sur les missions stratégiques qu’il aura à mener ; à mieux
définir ses interactions avec les métiers et la DSI ; à cerner les compétences, savoirs, et
savoirs-être qu’il devra avoir; à décider d’un modèle de placement selon la chaine de valeur
de l’organisation ; à préciser le tempo dans lequel l’entreprise doit investir ; et à émettre des
conseils sur les méthodologies à utiliser.
4
REMERCIEMENTS
Je tiens tout d’abord à remercier Federico Pigni, directeur de cette thèse. Par sa passion et
son dévouement, il m’a permis de prendre la hauteur nécessaire à la rédaction de ce
document tout en m’alimentant par sa méthode, son savoir pour ne pas me laisser dérailler.
Je tiens aussi particulièrement à remercier François Blondel, mon manager, qui a su me
lancer, me faire réfléchir, m’aiguiller et m’encourager, tout en me laissant libre de développer
ma pensée, ma maturité et la confiance nécessaire à l’accomplissement d’un tel travail.
Je tiens à remercier mes responsables, Renaud Cochet et Thibaut Reboullet qui m’ont
permis de travailler à CGI, et d’évoluer dans un environnement propice au développement
des compétences managériales, et de l’esprit d’innovation nécessaire dans ce monde
extrêmement mouvant. Sans compter leurs encouragements et leur participation à cette
thèse qui m’ont permis de capitaliser autour de la valeur qui y est injectée.
Je voudrais également remercier mon client, Arnaud Thomas, pour sa participation, ses
encouragements et son énergie. Merci de m’avoir laissé libre de participer à des sujets sur
lesquels je n’étais pas nécessairement impliqué.
Je tiens à remercier chacun des membres, un par un, des équipes TOTAL à Grenoble et
Lyon qui m’ont entouré depuis plus d’un an. Ils m’ont permis de m’intégrer et d’apprendre
dans la bonne humeur et m’ont laissé prendre le temps de bien faire les choses. En
particulier Chloé, pour son aide dans l’alimentation de la revue de littérature, et Gaël, qui a
su m’éclairer dans l’obscurité des soirées de travail.
Enfin, je remercie ma famille et mes amis pour leur aide et leur soutien indéfectible.
5
TABLE DES MATIERES
TABLE DES MATIERES
Introduction ........................................................................................................................... 3
Résumé.............................................................................................................................. 3
Remerciements .................................................................................................................. 4
Table des matières ............................................................................................................. 5
Introduction (Thématique) .................................................................................................. 7
Un nouveau paradigme à saisir pour le business ............................................................ 7
Les difficultés techniques connues et adressées ............................................................. 7
Des difficultés managériales encore floues ..................................................................... 8
Lien entre le sujet choisi et la mission en entreprise ....................................................... 9
Partie Thèse .........................................................................................................................10
Methodologie ....................................................................................................................10
Présentation de la méthodologie ....................................................................................10
Le modèle ..................................................................................................................10
Recueil d’informations Pour alimentation du modèle ......................................................13
Offres d’emploi ...........................................................................................................13
Entretiens ..................................................................................................................19
Etudes de cas ............................................................................................................26
Vue globale ................................................................................................................31
Analyse ................................................................................................................................33
Synthèse du recueil d’informations ................................................................................33
Missions.....................................................................................................................33
Caractéristiques .........................................................................................................34
Rôle ...........................................................................................................................35
Placement ..................................................................................................................36
Quand ........................................................................................................................37
Comment ...................................................................................................................38
Partie conclusive ..................................................................................................................40
6
Discussion / Conclusion ....................................................................................................40
Apports théoriques .........................................................................................................40
Limites théoriques ..........................................................................................................41
Limites méthodologiques ...............................................................................................41
Pistes de prolongement .................................................................................................41
Annexes ............................................................................................................................43
Analyse lexicale complète ..............................................................................................43
Interviews.......................................................................................................................47
Renaud Cochet ..........................................................................................................47
Thibaut Reboullet .......................................................................................................50
Arnaud Thomas .........................................................................................................53
Références ........................................................................................................................58
7
INTRODUCTION (THEMATIQUE)
UN NOUVEAU PARADIGME A SAISIR POUR LE BUSINESS
La révolution des données est en marche : avec 12 Milliards d’objets connectés et une
augmentation de 90% de la quantité de données stockées ces deux dernières années1, le
monde entier est en passe d’être mis en données. Ces objets et enregistrements ne sont
rien d’autres que des représentations de l’activité humaine. On sous-estime certainement
encore les possibilités offertes par leur analyse, afin de comprendre, cerner, détecter et
prévoir les comportements d’un groupe ou d’un individu en particulier.
D’un autre côté, les progrès quasi exponentiels des capacités informatiques de stockage, de
calcul et de mise à disposition permettent de traiter ces données et de les restituer aussi
bien à un consommateur, qu’à un professionnel n’importe où, n’importe quand, en quasi
temps-réel.
Vu au travers du prisme de l’entreprise, cette révolution est un point d’inflexion stratégique
qui créé des risques, menaces, mais surtout qui produit des opportunités semblables à celles
des innovations de rupture les plus importantes. Quatre types de stratégies clients « data-
driven » sont exacerbés par cette nouvelle donne : réduire les coûts ; recruter des clients ;
récompenser la fidélité ; personnaliser l’expérience2.
Recruter des clients par une stratégie data-driven, c’est le service qu’offre Google avec
Adwords à toutes les entreprises.
En parallèle, quatre axes de valorisation en temps réel pour l’entreprise sont maintenant
accessibles : détection; visibilité de masse; expérimentation ; coordination3.
Par exemple, Starbucks, lors du lancement d’un nouveau produit, a pu analyser l’accueil que
lui ont réservé ses consommateurs sur Twitter. Ainsi, il a pu être détecté un désamour du
consommateur pour le nouveau café, et cerné que ce problème venait du prix. Dès le
lendemain, Starbucks a adapté ce prix et le lancement fut un succès. 4
Chez ThyssenKrupp, avec l’aide de CGI, la décision de connecter et d’analyser l’ensemble
de l’activité de leurs ascenseurs a été prise. Grâce à des modèles prédictifs d’usure de leurs
pièces, ils peuvent mettre en relief l’utilisation de n’importe quel ascenseur et prévoir les
pannes ; ou bien encore, connaitre le problème dès qu’il se produit. Ainsi ThyssenKrupp peut
proposer un niveau de service d’une valeur ajoutée supérieure par rapport à ses concurrents
et peut optimiser son service de maintenance en réduisant les coûts engendrés.
LES DIFFICULTES TECHNIQUES CONNUES ET ADRESSEES
Pour atteindre ces possibilités, la réalité est remplie de défis. Des défis techniques et
technologiques d’abord. En effet, récupérer, stocker, transformer une quantité de données
aussi grande qu’hétérogène et déstructurée n’est pas sans mal. Les schémas historiques du
stockage ont été remis en cause et de nouvelles solutions ont été imaginées (Solutions
NoSQL : MongoDB, Cassandra ou Redis). Il en va de même pour les transformations et
traitements (Infrastructures distribuées ; Memtables). 5
8
Il a fallu sortir des schémas historiques des bases de données, dites relationnelles, afin de
pouvoir distribuer le stockage et le traitement de ces données. La quantité n’est d’ailleurs
pas le seul défi à gérer dans l’approche, il y a aussi et surtout la richesse et l’hétérogénéité
des sources qui nous mettent face à des données déstructurées comme des textes, de la
vidéo, des données sonores, en provenance du milieu de la santé, d’un appareil mobile, ou
d’une caméra de vidéosurveillance…6 L’approche centralisée du stockage doit maintenant
faire de la place à un modèle de stockage qui s’adapte au cycle de vie de la donnée et à sa
complexité7. Et même si aujourd’hui il s’agit de manager du contenu déstructuré, les plus
avancées des entreprises aux stratégies data-driven font face à l’étape suivante : quelles
données tirer de ces milliards d’appareils mobiles ou senseurs en général qui feront la valeur
de nouveaux services, et nouvelles analyses, demain.
DES DIFFICULTES MANAGERIALES ENCORE FLOUES
Mais qui dit nouvelles techniques et technologies pose alors la question des nouveaux
savoirs et savoir-faire nécessaires pour les mettre en place, les exploiter. Ce changement de
paradigme demande aux professionnels de gérer le chaos avec de nouveaux profils et de
nouvelles expertises8, là où auparavant nous avions un milieu organisé.
Comme énoncé plus haut, c’est d’abord un défi technique qu’il faudra traiter avec le
recrutement de profils experts. Bien que les solutions créées soient d’une richesse et
complexité importantes, les éditeurs et fournisseurs sont au rendez-vous. Reste alors à
former des professionnels aux compétences adéquates.
Mais la question n’est pas seulement technique. Le traitement des données affecte
directement la stratégie de l’entreprise. Le problème de management est donc transverse et
chamboule les modèles établis : une DSI et un métier travaillant avec des interfaces ; des
projets souvent menés en cycle en V ; des compétences techniques et métiers
imperméables entre les collaborateurs.
On entrevoit alors le problème de management sur lequel il faudra que l’entreprise
tranche pour prendre le meilleur du point d’inflexion stratégique le plus important depuis
internet :
Le Data Scientist est le nouveau métier consacré, central, et pivot d’une révolution business
en marche9. Quelles compétences techniques, business, méthodologiques et humaines doit-
il avoir ?
Face à une problématique aussi technique que business, où doit-on placer ces compétences
dans l’entreprise ?
De quelle typologie de management, de gestion des interactions, et de quels processus doit-
on entourer ces compétences pour optimiser leur création de valeur et impact business ?
La structure et la culture de l’entreprise devrait-elle être conduite vers le changement afin de
mieux s’adapter à cette donne ?
9
LIEN ENTRE LE SUJET CHOISI ET LA MISSION EN ENTREPRISE
TOTAL, 1ère entreprise française du CAC40, 25ème compagnie mondiale (Forbes) tous
secteurs confondus, se divise en trois entités : une branche extraction ; une branche
raffinage et chimie ; et une branche marketing et services. Cette dernière est un retailer de
produits pétroliers et de services associés. Comme tout retailer, elle fait face aux enjeux de
la fidélisation et de la montée en valeur des services fournis aux clients.
Employé chez CGI depuis plus d’un an, je fais parti d’une structure innovante accolée à une
TMA historique prenant en charge la maintenance du data warehouse de TOTAL Marketing
& Service. Cette structure, BING (BI Next Generation) a pour objectif d’accompagner TOTAL
M&S dans le virage vers l’entreprise numérique de demain assouplissant le cadre d’une
relation client – fournisseur qui parfois peut entraver une agilité nécessaire dans le milieu
incertain de l’innovation. BING a été créé comme un laboratoire d’innovation, un bac à sable
permissif pour les expérimentations potentiellement créatrices de valeur.
Dans ce cadre, j’ai pu m’intéresser à chacun des chaînons de la Business Intelligence
générique : acquisition ; transformation ; restitution. Naturellement, l’objectif était de coller
aux besoins des métiers et d’aller au-delà dans la montée en valeur lorsque c’était possible.
Un projet de segmentation client a permis d’effleurer les problématiques qu’un Data Scientist
rencontrerait dans son installation et l’exploitation des données dans une grande entreprise.
10
PARTIE THESE
METHODOLOGIE
PRESENTATION DE LA METHODOLOGIE
Centrée sur le Data Scientist, il est nécessaire de comprendre l’ensemble des facteurs
influençant son action dans l’environnement complexe de l’entreprise. Le recueil
d’informations, l’analyse, l’émission d’hypothèses et de réponses aux questions
précédemment énoncées se font en mettant en perspective chacune de ces étapes avec la
complexité de ce système.
La première étape est donc de définir cet environnement en caractérisant chacun des
éléments participants. Cette étape est en fait le choix d’un modèle sur lequel est basée
l’étude.
Ensuite, il est nécessaire de placer le Data Scientist dans ce système afin de comprendre
quelles sont les influences autour de lui. Grâce à cela, il sera possible de construire un
modèle centré sur le Data Scientist, entouré des éléments qui l’influencent.
D’autre part, une des étapes cruciales de cette thèse est dans le recueil de données et
informations tant qualitatives que quantitatives. Ces informations nécessitent d’être
organisées et classées pour faciliter leur analyse et leur réutilisation lors de l’écriture d’un
recueil de recommandations. C’est pour cette raison qu’un système de classement en
accord avec le premier modèle est réalisé. Cela permet, une fois le recueil terminé de revenir
au premier système qui tient compte de toute la complexité de l’environnement de
l’entreprise.
LE MODELE
Le Data Scientist, par sa technicité et les ressources qu’il utilise, est fortement emprunté d’un
rôle IT tant par son champ d’action que par ses compétences et les ressources dont il a
besoin pour évoluer. De plus, le bouleversement des pratiques et des business models
expliqué dans l’introduction nécessitent des évolutions culturelles importantes qui vont de
pair avec des contraintes sociales et sociologiques qu’il faut donc intégrer.
C’est pour cette raison que le modèle de base retenu pour cette étude est celui proposé de
manière générique dans le manuel «MIS Problems and Failures: A Socio-Technical
Perspective» de Robert P. Bostrom and J. Stephen Heinen.
11
Figure 1 : « MIS Problems and Failures: A Socio-Technical Perspective», Robert P. Bostrom and J. Stephen Heinen
Ce système, centré sur la stratégie de l’organisation, se divise en deux sous-parties
dépendantes qui se différencient par leur nature. En effet le sous-système technique
comprend les appareils, les outils et les techniques qui permettent de transformer de l’entrée
vers la sortie en améliorant la performance économique de l’entreprise le plus efficacement
possible. Le sous-système social quant à lui comprend tous les employés, les
connaissances, les compétences, les attitudes, les valeurs et les besoins qu’ils apportent au
système.
Cet axiome, nous permet d’isoler le Data Scientist en son sein. Celui-ci est considéré comme
une « Personne ». Afin d’étudier l’entité « Data Scientist » il est nécessaire d’en tirer un
nouveau modèle centré sur lui, en l’entourant des éléments du sous-système qui l’alimentent
ou le modifient.
Strategy
Process
Technology
Structure
People
Data Scientist
People Structure
Process
Technology
Strategic Goal
Social
Technical
System
12
Ce modèle d’étude est donc une réinterprétation dérivée utilisant les mêmes éléments que le
modèle retenu plus haut.
Enfin, comme expliquer plus haut, l’analyse du Data Scientist permet d’alimenter le modèle
ci-dessus. Ainsi, six axes d’analyse du DS sont retenus :
Data Scientist
Missions
Caractéristiques
Rôles
Placement
Quand
Comment
13
RECUEIL D’INFORMATIONS POUR ALIMENTATION DU MODELE
Comme expliqué dans l’introduction, le Data Scientist est un nouveau métier. Son actualité
et les écrits de valeur restent pauvres. Afin de mettre en lumière toutes les faces du prisme
du sujet, le recueil d’information fait appel à quatre sources :
- Etude d’offres d’emploi
- Interview
- Etude de cas
- Revue de littérature
Ces quatre sources d’informations permettent de mêler un recueil d’informations qualitatives
par les interviews, les études de cas, et la revue de littérature, avec un recueil d’informations
quantitatives grâce à l’analyse des offres d’emploi.
De part la récence du sujet et la spéculation qui s’est installée autour de celui-ci, il est
important de récupérer les deux types d’informations afin d’éviter le piège d’une mauvaise
interprétation qualitative.
Pour classer et analyser plus facilement les informations recueillies, voici la grille retenue
pour alimenter les six axes d’évaluation du Data Scientist :
Axes de recherche Analyse Lexicale Interview 1 Interview 2 Interview 3 Etude de cas 1 Etude de cas 2
Missions
Caractéristiques
Rôle
Placement
Quand
Comment
Ces six axes se logeront ensuite dans un modèle logique basé sur le premier présenté et
enrichi si besoin.
OFFRES D’EMPLOI
Afin de mieux cerner les éléments qui constituent un Data Scientist, une analyse des offres
d’emploi proposées permet un recueil d’information efficace et de mieux cerner les attentes
des entreprises confrontées à ce nouveau rôle.
Trois types de sources d’offres sont retenus :
- Sites de recherche d’emploi généralistes
14
- Sites de recherche d’emploi spécialisés dans les technologies de l’information
- Sites institutionnels d’entreprises spécialisées dans l’analyse de données
Le mot clé cherché est « Data Scientist ». En effet, il convient de faire la distinction entre le
poste de Data Scientist, Data Miner ou BI Analyst.
Type Sites retenus Nombre d’annonces
Sites de recherche d’emploi
généralistes
Indeed, Monster, Apec 35
Sites de recherche d’emploi
spécialisés dans les technologies
de l’information
LesJeudis, Jobtic 4
Sites institutionnels d’entreprises
spécialisées dans l’analyse de
données
Amazon, Google, IBM,
VMWare, Yahoo 39
TOTAL 78
La démarche de qualification des annonces ainsi récupérées a été réalisée grâce au logiciel
NVivo.
Le but est de compter les occurrences de mots afin de détecter les éléments communs entre
les annonces et ainsi dégager des caractéristiques importantes du Data Scientist.
L’emploi de Data Scientist n’est fait que par des entreprises qui sont suffisamment avancées
pour le faire, d’où la logique de cette démarche.
Voici la retranscription des 150 mots les plus utilisés dans les annonces (mots de liaisons, ou
jugés inutiles, exclus) :
Mot Nombre Pourcentage pondéré (%)
data 389 1,69
experience 171 0,74
business 132 0,57
research 131 0,57
learning 93 0,40
machine 84 0,36
work 79 0,34
skills 76 0,33
15
données 74 0,32
team 72 0,31
google 71 0,31
solutions 69 0,30
scientist 66 0,29
science 63 0,27
analytics 60 0,26
analysis 59 0,26
products 55 0,24
software 51 0,22
world 50 0,22
information 49 0,21
techniques 49 0,21
technologies 49 0,21
description 48 0,21
development 47 0,20
knowledge 47 0,20
yahoo 47 0,20
clients 46 0,20
large 46 0,20
product 46 0,20
degree 45 0,20
profil 45 0,20
computer 44 0,19
design 44 0,19
management 42 0,18
problems 42 0,18
qualifications 42 0,18
services 42 0,18
ability 41 0,18
modeling 41 0,18
statistical 41 0,18
strong 41 0,18
technology 41 0,18
engineering 40 0,17
systems 40 0,17
algorithms 39 0,17
mining 38 0,16
across 36 0,16
projects 36 0,16
python 36 0,16
statistics 36 0,16
votre 36 0,16
formation 35 0,15
marketing 35 0,15
related 35 0,15
scale 35 0,15
using 35 0,15
working 35 0,15
algorithmes 34 0,15
develop 34 0,15
teams 34 0,15
16
équipe 34 0,15
développement 33 0,14
poste 32 0,14
recherche 32 0,14
analytical 31 0,13
help 31 0,13
mobile 31 0,13
performance 31 0,13
scientific 31 0,13
user 31 0,13
java 30 0,13
statistiques 30 0,13
technical 30 0,13
environment 29 0,13
expertise 29 0,13
missions 29 0,13
outils 29 0,13
security 29 0,13
tools 29 0,13
labs 28 0,12
required 28 0,12
search 28 0,12
communication 27 0,12
organization 27 0,12
company 26 0,11
expérience 26 0,11
language 26 0,11
partners 25 0,11
place 25 0,11
reporting 25 0,11
high 24 0,10
société 24 0,10
analyzing 23 0,10
customers 23 0,10
including 23 0,10
intelligence 23 0,10
quality 23 0,10
responsabilités 23 0,10
understanding 23 0,10
apply 22 0,10
build 22 0,10
closely 22 0,10
drive 22 0,10
entreprise 22 0,10
hadoop 22 0,10
scientists 22 0,10
service 22 0,10
compétences 21 0,09
engineers 21 0,09
leader 21 0,09
model 21 0,09
opportunity 21 0,09
17
preferred 21 0,09
programming 21 0,09
quantitative 21 0,09
users 21 0,09
based 20 0,09
insights 20 0,09
like 20 0,09
status 20 0,09
time 20 0,09
academic 19 0,08
areas 19 0,08
committed 19 0,08
employment 19 0,08
fluent 19 0,08
location 19 0,08
mathématiques 19 0,08
methods 19 0,08
models 19 0,08
provide 19 0,08
vmware 19 0,08
applications 18 0,08
demonstrated 18 0,08
global 18 0,08
highly 18 0,08
matlab 18 0,08
modèles 18 0,08
nouveaux 18 0,08
online 18 0,08
participate 18 0,08
traitement 18 0,08
analyse 17 0,07
client 17 0,07
community 17 0,07
connaissances 17 0,07
content 17 0,07
create 17 0,07
Leur classement selon les 6 axes alimente l’analyse et permet déjà de tirer des conclusions :
Axe de
recherche informations
Missions business, products, clients
Caractéristiques
experience, business, research, machine learning, team, analytics, software, world,
techniques, technologies, clients, computer, management, design, modeling,
statistical, engineering, systems, technology, algorithmique, data mining, python,
marketing, développement, analytical, mobile, scientific, java, communication,
langage R, reporting, hadoop, insights, mathématiques, matlab, leadership
Rôle business, research, world
Placement business, products, across, marketing
18
Quand Experience
Comment research, labs
Cette analyse nécessite de prendre de la hauteur. Le comptage de mots sortis de leur
contexte ne permet pas d’avoir l’entièreté du sens qui leur est attaché. Cependant, nous
pouvons constater un champ lexical le plus souvent accolé à une annonce d’emploi de Data
Scientist.
Les mots « business », « products » et « customers » (toutes langues confondues) nous
conduisent logiquement vers un impact direct avec le cœur du métier de l’entreprise. En
effet, là où auparavant le service en charge des données pouvait arriver en support des
fonctions qui sont en lien direct avec le marché, nous avons maintenant un métier de data
scientist au plus proche du marché.
Au niveau des savoirs, savoir-faire et savoir-être, l’analyse lexicale est particulièrement
pertinente puisqu’elle fait ressortir des mots spécialisés dont le contexte importe peu. Le
data scientist est avant tout un expert technique. Les mots « machine learning, analytics,
software, techniques, technology, modeling, statistical, engineering, systems, algorithmique,
data mining, Python, scientific, Java, langage R, Hadoop, mathématiques, Matlab » nous
donnent une bonne vision de l’étendue des compétences nécessaires et attendues dans
l’effectuation du métier d’analyste de données. Nous avons donc un scientifique,
mathématicien, statisticien, doté de très bonnes connaissances en développement
informatique sur divers langage et qui doit être opérationnel sur les nouveaux frameworks et
nouvelles plateformes big data.
Ensuite, d’un point de vue fonctionnel, le Data Scientist doit être armé pour faire bénéficier
ses analyses d’une bonne connaissance du « business » de l’entreprise. Les mots
« business, products et customers » nous y conduisent également naturellement. A partir de
là, on entrevoit la difficulté d’obtenir d’une seule et même personne qu’il soit un scientifique
et un technicien pointu autant qu’un professionnel du marché sur lequel son entreprise ou
client évolue.
Enfin, les qualités humaines attendues d’un Data Scientist sont somme toute classiques pour
un professionnel qui évolue transversalement dans l’entreprise et à un niveau relativement
élevé. Il doit être expérimenté, être doté d’un bon leadership et d’une très bonne capacité de
travailler en équipe. Il doit également être doté d’une intelligence managériale importante.
D’un point de vue méthodologique et placement dans l’entreprise, les informations recueillies
sont d’une clarté moins franche. Cependant, sans risque, on peut admettre qu’il effectuera
un travail de « chercheur », ou du moins en mode « laboratoire » dans l’entreprise. En
connexion directe avec le « marketing » et de manière « transversale » (« across »), sa
mission portera sur des marchés internationaux (« world »).
En conclusion de cette analyse lexicale, on se rend bien compte de la complexité et de la
richesse des caractéristiques techniques, fonctionnelles, méthodologiques, et de la
personnalité d’un Data Scientist.
19
ENTRETIENS
Entouré de professionnels accessibles, experts, offreurs ou clients, je peux m’appuyer sur
leur vision des opportunités et contraintes nouvelles qui s’ouvrent. Chacun avec leur prisme,
ils ont une idée factuelle de ce que doit apporter un Data Scientist pour répondre à leurs
besoins et à celui de leurs clients ou clients internes.
LE QUESTIONNAIRE D’ENTRETIEN
Grâce à un questionnaire d’entretien construit autour des 6 axes d’analyse énoncés plus
haut, il est possible de tirer la substantifique moelle des interlocuteurs interrogés.
1 – Missionsd’un Data Scientist (Pourquoi)
Pourquoi les données changent la donne pour l’entreprise dès aujourd’hui et demain
?
De quels avantages l’entreprise pourra-t-elle bénéficier ?
Pourquoi les compétences en entreprises sont insuffisantes actuellement ?
Pourquoi le rôle du Data Scientist va être prépondérant dans le traitement de la
donnée ?
2 – Rôle (Qui)
Comment définissez-vous le rôle du DS dans l’entreprise ?
Comment définissez-vous le rôle du DS auprès de la DSI ?
Comment définissez-vous le rôle du DS auprès du Métier ?
3 – Caractéristiques (Quoi)
Quelles compétences techniques attribuez-vous au DS ?
Quelles compétences métier attribuez-vous au DS ?
Quelles compétences « humaines » attribuez- vous au DS ?
4 – Placement dans l’entreprise (Où)
Sous quelle direction placeriez-vous le DS ?
Géographiquement dans l’entreprise, où placeriez-vous le DS (dans quel service,
sous quelle direction) ?
5 – A quelle étape de maturité de l’entreprise (Quand)
Quels sont les pré-requis que devraient remplir l’entreprise avant de se doter d’un
DS ?
Comment juger si une entreprise devrait se doter d’un DS ?
6 – Avec quels moyens (Comment)
20
Quel type fonctionnement recommanderiez-vous ? (Typologie de management de
projet)
De quels process entoureriez-vous le DS s’il devait y en avoir ?
Dans quelle mesure les entreprises devraient investir ?
7 – Ouverture
Y a-t-il un point que nous n’avons pas abordé qui vous semble important ?
THIBAUT REBOULLET
Métier :
Directeur Adjoint chez CGI
Responsable Offre Business Intelligence et Big Data
Responsable Practice Business Intelligence
Expérience :
10 ans de Consulting en Business Intelligence
Formation :
Mastère spécialisé – Grenoble Ecole de Management
Ingénieur des SI
Axes de
recherche Informations
Missions
- Mutation de l'avantage concurrentiel à avoir : connaissance du marché
- Mieux comprendre les attentes
- Informations plus précises et qui proviennent directement du marché
- Informations qui arrivent plus rapidement
- Parfois en temps réel
- Changement de culture dans l'entreprise (centrée produit vers centrée
marché)
- Pour y parvenir nécessité d'avoir un nouveau profil technique et métier qui
comprend le marché et le produit
- Profil qui donne du sens aux données pour les transformer en informations
Caractéristiques
Technologique : outils, statistique, algorithmique
- DS spécialisé dans un secteur d'activité : expert métier
- Compétence : Curiosité, sens de l'innovation, pas peur du changement,
recherche de nouveautés, analytique, travail en équipe
Rôle - Dépend des organisations : si entreprise qui commercialise un produit alors
DS côté métier (4P), si entreprise qui commercialise un service (intangible)
21
alors côté DSI
Placement
- Sous le digital office ou le data officer porteur de la tranformation digitale de
l'entreprise
- à défaut, sous le directeur marketing
- orienté moyen et long terme : au siège
Quand
- C'est la stratégie d'entreprise qui dicte ce besoin
- Dès que le besoin de transformer le business model est présent
- Toutes les entreprises qui gagnent à connaitre le comportement du
consommateur, maintenant
Comment
- Cycles itératifs courts : 1 à 4 mois
- Détection de l'opportunité jusqu'au test de l'algorithme : 1 à 3 mois
Thibaut Reboullet, fort de ses 10 ans de consulting en Business Intelligence et de sa position
actuelle à CGI a déjà dû effectuer la démarche intellectuelle déroulée pour ce sujet. Il a dû
l’effectuer de manière stratégique et opérationnelle afin d’alimenter les offres, et les
réponses aux clients pour le compte de CGI.
Selon lui, nous sommes dans une mutation des avantages concurrentiels des entreprises. La
connaissance de son marché sera prépondérante pour l’entreprise dans son aptitude à
proposer la bonne réponse à un besoin toujours plus spécialisé, spécifique et complexe. Les
entreprises françaises auparavant focalisées sur le produit doivent maintenant s’attacher à
porter toute leur attention sur le marché. Face à des entreprises anglo-saxonnes qui
culturellement étaient déjà plus attentives au marché et à tout ce qui gravite autour du
produit, les entreprises françaises doivent surmonter le retard accumulé. Les données
peuvent maintenant alimenter et enrichir cette démarche de connaissance du marché plus
précisément et plus rapidement.
Pour traiter ces nouvelles données, leur afflux plus rapide, et leur importance stratégique et
marché, de nouveaux profils doivent être recrutés. Le Data Scientist doit être en mesure de
combler cet appel d’air. On entrevoit déjà la dimension technique et métier dont il doit être
doté afin de transformer les données en informations.
Thibaut Reboullet recommande que le Data Scientist soit un technicien expert d’un métier et
d’un secteur d’activité. Il devrait être spécialiste en statistique, algorithmique, et maitriser les
outils permettant la modélisation des données. En outre, il doit être spécialisé dans un
secteur d’activité afin de comprendre précisément les facteurs d’influence qui interagissent.
C’est une condition sine qua non sans laquelle il ne lui est pas possible de produire des
analyses pertinentes ou d’innover en sachant où et quoi chercher. Humainement, le Data
Scientist doit être curieux, tourné vers l’innovation tout en maîtrisant le changement, toujours
apte à travailler en équipe et évidemment analytique.
Son rôle est différent suivant si l’entreprise commercialise un produit ou un service. Si
l’entreprise est sur un marché tangible (produit), le Data Scientist devrait être placé au plus
proche du métier. A l’inverse, si l’entreprise évolue sur un marché intangible (service) le Data
Scientist devrait être placé côté DSI. Thibaut Reboullet généralise ce placement en le
22
ramenant à celui du nouveau service des nouveaux usages numériques qui fleurissent
actuellement dans les entreprises qui engagent une transformation digitale.
Le timing de ces changements est dicté par la stratégie d’entreprise. C’est une question de
besoin d’évolution de business model, et d’opportunité pour mieux cerner le marché ou le
consommateur. Dès que l’entreprise peut bénéficier d’un avantage concurrentiel en
connaissant mieux sa cible, alors elle devrait transformer son organisation pour centrer son
business sur une stratégie data-driven comprenant donc un Data Scientist.
D’un point de vue méthodologique, les projets d’analyse de données sont menés en cycles
itératifs courts de 1 à 4 mois maximum entre la détection de l’opportunité et le test de
l’algorithme. Il est important d’agir par itérations car le processus d’obtention de feedback est
primordial pour l’amélioration continue.
RENAUD COCHET
Métier :
Responsable de la Business Line Business Consulting & Solutions – CGI Grenoble
Expérience :
Directeur de mission chez Accenture
Axes de
recherche Informations
Missions
- Big Data : un risque et une opportunité en même temps. Ceux qui s’y
mettront gagneront un avantage concurrentiel
- Mieux comprendre le consommateur
- Mieux savoir si son offre colle au besoin
- Permettre à l’entreprise de mieux se connaitre elle-même
- Résultat d’une adaptation de la gouvernance de données
- Comprendre et analyser
- Faire évoluer la culture vers moins d’instinct et davantage de « speak with
data »
- Explorer, chercher
- Amélioration continue : nouveaux services, process, et boucle de feedback
Caractéristiques
- Toutes les compétences autour des données ainsi que du big data et des
framworks qui l’accompagnent
- Un DS dans un service de data scientism peut se permettre de n’être qu’un
expert spécialisé dans la donnée tant qu’il est accompagné d’autres
compétences autour
Rôle
- Plutôt que de parler de Data Scientist il est plus pertinent de parler d’une
équipe de Data Scientism dont les protagonistes auront des compétences
hautement complémentaires
- Mieux gérer la donnée auprès de la DSI
23
- Mieux comprendre les problématiques métier et faire évoluer leur culture de
la décision
Placement
- Placé à la DSI car seule elle peut fournir ce service très technique
- Avec une co-direction ou un co-management du métier pour permettre à
celui-ci de s’impliquer facilement dans le développement de ces nouveaux
usages
Quand
- « Est-ce que la gestion des données a une importance dans la réalisation et
les enjeux de l’entreprise ? »
- Si oui, aussi vite que possible une fois le modèle de données et les process
modélisés
Comment - A manager comme un projet de transformation d’entreprise
- Inclure un management de projet innovant
Renaud Cochet est responsable de la branche Business Consulting & Solutions à Grenoble
pour CGI et bénéficie de 10 ans d’expérience chez Accenture pour le compte desquels il a
mené de grands projets de transformation d’entreprise.
Selon lui, le Big Data est un risque mais surtout une opportunité. En effet, sur la plupart des
secteurs d’activité, l’entreprise qui se lancera en se donnant les moyens de ses ambitions
parviendra à obtenir un avantage concurrentiel important. L’entreprise qui ne s’y mettra pas
prendra risque qui la vouera à rester un acteur mineur de son marché.
L’entreprise a de nombreux avantage à gagner : elle pourra mieux comprendre son
consommateur ou usage ; mieux analyser l’adhésion du marché à son offre ; mais aussi
mieux se connaitre elle-même. Ce qui est important, c’est de faire évoluer la culture
d’entreprise de la stratégie encore instinctive vers le « speak with data ». Le Big Data est
une solution d’amélioration continue incomparable pour proposer de nouveaux services ou
produits et améliorer ses process.
Selon Renaud Cochet, il est plus pertinent de parler d’un service de Data Scientism que d’un
Data Scientist seul à porter la responsabilité de cette transformation digitale de l’entreprise.
Les activités nécessaires à cette transformation seront quadruples : chercher, creuser,
explorer ; analyser ; éduquer, faire évoluer les métiers ; analyser fonctionnellement un
besoin. Suivant la taille et les ambitions de l’entreprise, ces quatre activités pourraient être
prises en charges par quatre personnes aux métiers bien distincts. Et d’ailleurs, selon lui, il
n’est pas possible de trouver la personne capable de mener en parallèle ces quatre
missions. Les compétences nécessaires sont trop différentes.
Le Data Scientist en lui-même occuperait la place du chercheur, de l’explorateur. En
conséquence, ses compétences seraient techniques et devrait couvrir les besoins en
analyse de données, en Big Data et les frameworks et plateformes concernés. Le Data
Scientist peut être recruté comme un expert technique spécialisé si les compétences
complémentaires développées ci-dessus sont présentes pour l’entourer. Sans celles-ci sa
mission serait certainement vaine ou avec un résultat bien en deçà des attentes.
Ce service de Data Scientism aurait une double mission : aider l’entreprise, et en particulier,
la DSI, à mieux gérer ses problématiques de données ; et appuyer les métiers dans
24
l’éducation, la réflexion, la mise en place de sa stratégie digitale, aujourd’hui indissociable de
sa stratégie générale.
Placé près de la DSI, ce serait à juste titre une reconnaissance de l’apport du SI à
l’entreprise. Seule la DSI peut fournir un service aussi technique. Cependant, la direction et
le management de ce service seraient partagés avec le métier prépondérant au cœur de
l’activité de l’entreprise.
Si la gestion des données pouvaient être importante dans l’accomplissement stratégique de
l’entreprise, alors cela voudrait dire que celle-ci doit se doter le plus vite possible de son
service de Data Scientism. L’autre condition est d’avoir défini précisément la stratégie de
gouvernance des données ainsi que cartographié les process de l’entreprise.
Enfin, Renaud Cochet recommande de manager la mise en place de ce service comme on
managerait un projet de transformation d’entreprise tout en adoptant une approche
innovation laissant la place à l’échec et à la multiplication des tentatives.
ARNAUD THOMAS
Métier :
Responsable Solutions Décisionnelles – TOTAL Marketing & Services
Direction des Systèmes d’information, Division Nouvelles Technologies & Innovation
Axes de
recherche Informations
Missions
- Changement de rapport à la BI : avant, suivi de process industriel et grand
contrôle de gestion ; maintenant que Total M&S a été mis en silo, nécessité de
prendre des pratiques stratégiques de retailer
- Nouveau relai de croissance à aller chercher puisque les produits pétroliers
stagnent
- Nécessité stratégique liée à un BM BtoC ou BtoBtoC de connaître le client
- Segmentation des offres qui implique de devoir faire de l’analyse de données
- Le pricing n’est plus adapté aux réalités du marché et des segmentations de
nos services
- Optimisation des investissements nécessaire
- Données structurées avec recherche de vérité, vers des données de moins en
moins structurées avec recherche de modèle probable : ce n’est plus le même
métier
Caractéristiques
- Expertise technique autour de toutes les disciplines de la donnée (SQL,
NoSQL, Hadoop, Excel, …)
- Compréhension transverse des métiers de l’entreprise pour adresser
n’importe quel client interne
- « Geek », ouvert, curieux, « bricoleur », pédagogue
- Analyses statistiques pilotées ou non
- Prise de hauteur et compréhension stratégique et opérationnelle des métiers
25
- Compétences relationnelles et de communication pour favoriser le
développement Agile
Rôle
- « Fait chanter les données »
- Produit des analyses non pas vraies, mais probable sur lesquelles on peut
construire des offres pour aller au-delà du simple contrôle de gestion et
remplacer les décisions stratégiques instinctives
Placement - Service en charge des données à la DSI
Quand
- Quand le métier est mature sur ce que peut lui apporter un Data Scientist
- Avoir fiabilisé et asservi sa BI classique afin de pouvoir se mettre dans de
bonnes conditions d’innovation
Comment
- Agilité, Lean startup dans l’approche pour co-constuire, confiance, écoute et
humilité, transversalité
- Pas de cadre mais un process de formalisation du besoin ouvert
- Exploratoire et recherche
Arnaud Thomas, Responsable Solutions Décisionnelles chez TOTAL Marketing & Services
est au cœur de toutes les problématiques développées plus haut. Depuis la scission en trois
entités bien distinctes, TOTAL M&S est confronté aux défis d’un retailer comme les autres.
Le passif de l’extraction de pétrole, de la chimie et du raffinage qui ne mettait pas au défi le
marketing au quotidien a entraîné un retard que TOTAL cherche maintenant à couvrir. De
plus, là où la Business Intelligence n’avait d’utilité que dans le suivi de processus industriels
et le contrôle de gestion, il faut lui trouver de nouveaux usages.
Les produits pétroliers stagnent à cause d’une consommation qui n’augmente plus et il est
nécessaire de trouver de nouveaux relais de croissance. Le marché de TOTAL M&S est
principalement en BtoBtoC et en BtoC ce qui implique de devoir mieux connaitre le
consommateur final pour proposer des offres davantage adaptées aux attentes. Le pricing
des produits n’est pas ajusté aux réalités du marché. La segmentation des offres marketing
n’est pas basée sur des données concrètes. Les stations ont besoin de recevoir des
investissements préalablement ciblés et optimisés.
Autant de questionnements auxquels l’analyse de données peut apporter des réponses. Ces
réponses ne pourront être trouvées que si les développements BI évoluent d’une
représentation véritable à un modèle probable. De plus, les données en entrée commencent
à se diversifier et à se complexifier. Les métiers de la donnée chez TOTAL M&S sont alors
amenés logiquement à évoluer. C’est pour toutes ces raisons que le Data Scientist est une
réponse incontournable.
Selon Arnaud Thomas, le Data Scientist sera doté d’une expertise technique avancée autour
de la donnée. Il sera capable de comprendre, et d’utiliser toutes les disciplines nouvelles et
anciennes autour du stockage et du traitement des données pilotées ou non. Il devra être
curieux, ouvert, bricoleur, mais aussi pédagogue pour accompagner le métier dans
l’évolution culturelle à laquelle il doit se préparer. Egalement, ses bonnes capacités
26
relationnelles lui permettront de travailler aisément en Agilité. Enfin, la compréhension
transverse des métiers tant stratégique qu’opérationnelle est une nécessité pour « faire
chanter les données ».
Son placement est sans équivoque auprès de la DSI, son fournisseur de données, de
solutions, afin de ne pas multiplier les interfaces entre le Data Scientist, le métier et la DSI
dans une organisation déjà suffisamment complexe.
Pour que le Data Scientist puisse effectuer son action avec le meilleur retour sur
investissement, la maturité du métier doit être au rendez-vous. En effet, sans cette maturité,
les différents services ne seront pas en mesure d’exprimer et de qualifier leurs besoins. De
plus, pour se mettre dans un environnement nutritif et ouvert à l’innovation, il convient de
dégager les préoccupations des sujets récurrents. C’est pour cela qu’avoir asservi et
fiabiliser sa BI « classique » est également une nécessité.
Pour modéliser une probabilité que l’on améliorera par des allers-retours continus, une
méthodologie Agile est appropriée alors que le développement en cycle en V ne conviendrait
pas. Afin de mieux coller au besoin et de co-construire une solution en faisant adhérer le
futur utilisateur, se rapprocher d’une méthodologie Lean Startup semble être idéale. La
formalisation du besoin nécessitera d’être guidée par un processus ouvert. Il faut se
rapprocher d’un processus de recherche laissant toute la place à l’incertitude, aux accidents,
pour laisser aussi arriver les réussites.
ETUDES DE CAS
DISPOSITIF BING
PRESENTATION
HISTOIRE
TOTAL Marketing & Services a amorcé un virage vers un modèle d’Entreprise Numérique
pour faire face aux évolutions des métiers de la distribution et des services pétroliers en
avals.
Afin d’assister TOTAL M&S dans sa mutation dans l’exploitation marketing de ses données,
CGI a proposé la mise en place d’un dispositif destiné à favoriser l’innovation par la
valorisation des données et l’innovation technologique.
Cette cellule indépendante a su, sait et saura accélérer et sécuriser ses résultats en
s’appuyant sur le dispositif BI TMA existant pour répondre aux 2 enjeux stratégiques majeurs
:
DATA AS
AN ASSET
DIGITAL
VALUE
27
OBJECTIFS
Développer un “véritable laboratoire d’idées” au cœur de la stratégie de
développement de services et produits innovants.
Réduire le time-to-market et disposer d’un dispositif très réactif aux besoins
Adresser les évolutions du métier vers les activités de services portées par TOTAL
M&S
RESULTATS
Solution BI Agile
La stratégie de montée en valeur de Total autour de l’informatique décisionnelle a amené
des questions sur la restitution finale de cette valeur aux utilisateurs. Grâce à BING, CGI a
pu répondre rapidement à cette problématique en lançant un comparatif de solutions BI
Agiles et Self-Service. En quelques jours d’intense co-construction, CGI a pu fournir à Total
une réponse en phase avec ses besoins. Aujourd’hui, ce comparatif créé l’adhésion autour
du choix final.
Data Quality Management
Grâce au dispositif BING, une première itération d’amélioration de la qualité de données à pu
être réalisée sur le périmètre Monétique de Total. La démarche s’est voulue didactique et
formatrice. Elle a permis de valider une méthodologie d’audit et d’amélioration de la qualité
de données. Cette démarche a été prise en exemple par les équipes ETL afin d’être
reproduite sur de nouveaux périmètres et implémenter plus en amont dans la chaîne de
transformation de la donnée.
KISS : Supply - Logistics
Dans le cadre de la création de la branche Supply chain et logistique de M&S, Total cherche
à industrialiser la maintenance de l’outil KISS. Cet outil, aujourd'hui basé sur Excel, doit être
migré vers les solutions BI traditionnelles de TOTAL de manière à permettre de garantir le
niveau de service attendu. Grâce à BING, CGI a pu adresser très rapidement ce besoin et
démontrer son savoir faire historique tout en proposant une méthodologie projet adaptée.
LA PHILOSOPHIE BING
« L'innovation est une alliance entre recherche, marketing, instinct, imagination, produit et
courage industriel. » - Antoine Riboud
« La vie est trop courte pour construire quelque chose dont personne ne veut. » - Ash
Maurya
28
« Les innovations sont presque toujours le fait d'explorateurs individuels ou de petits
groupes, et presque jamais celui de bureaucraties importantes et hautement structurées. » -
Harold J. Leavitt
ANALYSE
Axes de
recherche Informations
Missions
- Faire face aux évolutions des métiers
- Favoriser l’innovation
- Valorisation des données
- Construire un laboratoire d’idées au cœur du développement de services et
produits innovants
- Réduire le time-to-market
- Etre réactif au besoin
- Etre force de proposition
Caractéristiques
- Agile et flexible
- Favorise l’itératif au cycle en V
- Palette Compétences BI complète
Rôle - Porter les nouveaux usages de la donnée
Placement
- S’appuie sur une TMA pour sécuriser ses résultats
- En interface entre DSI et Métier pour écouter, cerner, adresser, produire et
livrer
Quand
- Lorsque la mise en place de la stratégie nécessite la mutation digitale de
l’entreprise
Comment
- Agilité
- Brainstorming
- Recherche/ Laboratoire
BING est un symptôme du besoin exprimé chez Total M&S par le Top Management de se
transformer en entreprise digitale. Ce dispositif est le vecteur d’une mutation qui n’en n’est
qu’à son embryon.
Ce triptyque qu’entretiennent le Métier Total, la DSI Total et CGI est assimilable à la relation
qu’un Data Scientist devrait entretenir dans son rôle d’interface DSI – Métier. Le Data
Scientist et le rôle d’interface sont identiques, c’est en ça que cette étude de cas est
29
porteuse de sens. Dans la mesure où ce dispositif répond au même besoin et entretient le
même rôle, ses principes sont appropriés pour un Data Scientist.
BING répond donc à de nombreuses attentes. Le métier est amené à évoluer, et il faut que
le niveau de service proposé par la DSI augmente, en valeur, et s’améliore pour les
accompagner dans cette démarche. Pour ça, favoriser l’innovation avec un bac à sable, un
laboratoire, à même de recevoir toutes les tentatives faisant appel à la mine d’or qu’est le
Data Warehouse chez Total, est une tentative intéressante. Le but : toujours mieux valoriser
les données et sortir des sentiers battus. En d’autres termes, il s’agit de favoriser
l’innovation.
Un autre enjeu du dispositif est de sortir des schémas traditionnels de développement avec
les raideurs historiques de part et d’autre de la DSI, tant dans l’interface Métier – DSI, que
DSI – CGI. Le but est de réduire le temps entre l’émission du besoin et la livraison d’une
solution et le time-to-market. En rendant plus flexible la relation avec les interlocuteurs
fonctionnels, il est ainsi possible de construire des solutions plus proche de la peine
constatée en entrée. Cette flexibilité passe par du développement Agile et des cycles itératifs
qui permettent une co-construction. KISS est un projet typiquement dans cet esprit. Le
besoin en reporting opérationnel et stratégique est affiné chaque semaine avec des
développements qui suivent.
Le placement de BING, adossé à une TMA qui a pu fiabiliser la BI et en particulier les nuits
applicatives, permet à ce bac à sable d’améliorer ses résultats. En effet, les experts présents
sur cette TMA connaissent et maîtrisent le traitement de la donnée de Total ce qui leur
permet d’amener tout leur savoir en réduisant les risques liés à des projets sortant d’un
cadre classique, et en accélérant le développement grâce à leur expérience du Data
Warehouse et des outils de Total.
Il n’était pas envisageable de lancer ce projet de nouvelle structure il y a deux ans. En effet,
la fiabilisation de la Business Intelligence et la migration des outils étaient trop chronophages
pour laisser le temps nécessaire pour innover. Logiquement, on peut poser l’hypothèse que
pour se lancer dans l’analyse de données, des étapes de maturité doivent être franchies.
Cela relève donc de la convergence d’un récurrent asservi et maîtrisé avec une digitalisation
de la stratégie de l’entreprise.
En pratique, BING se veut permissif dans la réflexion et la réalisation. Cela entraine de
nombreux brainstorming entre la DSI Total et CGI afin d’émettre et de cadrer de nouvelles
initiatives de part et d’autre. C’est également un management Agile qu’il n’est pas toujours
facile de mettre en place quand le poids d’un historique en cycle en V est présent tant dans
les processus quotidiens que dans les cultures et les comportements.
PROJET DE SEGMENTATION
HISTOIRE
Le Marketing chez Total a commandé une segmentation clients auprès d’un prestataire
externe. Ce prestataire a restitué sa réponse au besoin. La DSI a pu avoir accès à cette
restitution et aux critères de segmentation. Accompagnée de CGI, la DSI a cherché à
reproduire cette segmentation pour prouver au métier qu’elle était maintenant capable
30
d’adresser ce genre de besoin. Le projet a eu lieu sur quatre semaines. Le but était de coller
à la réponse du prestataire externe. Leur restitution a donc servie de spécifications
fonctionnelles.
Avec des boucles itératives très rapides sur les parties techniques mais une première
présentation au métier tardive, seulement une fois que la segmentation serait réalisée, le
projet se voulait pédagogique pour la DSI. Les spécifications techniques se sont faites au fur
et à mesure afin de réduire les incertitudes à leur minimum. D’autres points d’interrogations
ont pu être levés quant à la faisabilité technique et la simplicité de développement. Ainsi, la
DSI et CGI ont pu capitaliser sur une première expérience de Data Mining.
A la suite de cette segmentation technique, la question de la restitution à l’utilisateur s’est
présentée. En effet, Total n’était pas équipé en solution de reporting stratégique ou
opérationnel pure. Le projet de segmentation a donc débouché sur un comparatif de
solutions très concret répondant à un besoin émanant d’un autre besoin stratégique. C’est
aussi de cette manière qu’il a été nécessaire d’avoir la flexibilité requise pour prolonger le
projet de quatre semaines.
Une fois la solution choisie, la segmentation a été traduite en data visualisation afin d’être
mise à disposition pour les utilisateurs métier de Total, les futurs clients de la DSI. Cette
livraison est intervenue nécessairement tard pour être suffisamment aboutie afin de ne pas
recevoir un mauvais accueil de la part de l’utilisateur. Mais elle intervient suffisamment tôt
pour aider l’utilisateur à comprendre les problématiques de l’analyse de données.
ANALYSE
Axes de
recherche Informations
Missions
- Segmenter la clientèle BtoB
- Apprendre à sortir des usages classiques des données pour monter en valeur
- Comparer les solutions afin de disposer des outils adéquats pour restituer à
l’utilisateur
Caractéristiques
- Bonne connaissance technique de BDD, du DTW Total, des fonctions
mathématiques en SQL
- Bonne connaissance fonctionnelle du métier de Total et des problématiques
métier
Rôle
- Faire un pont entre le métier et la technique
- Croiser des données grâce à des fonctions mathématiques pointues
Placement - Près de la DSI en lien direct avec le métier
Quand - A l’expression d’un besoin métier de segmentation clients
Comment - Cycle itératif technique court et rapide
31
- Boucle d’itération avec le métier plus longue afin d’obtenir leur adhésion et
de les « éduquer » sur les problématiques de l’analyse de données
Ce projet est un cas d’école de ce qu’un Data Scientist aurait pu avoir à mener. Même si ce
premier test n’était pas le plus abouti techniquement, il était fonctionnellement sensible. En
effet, une très bonne connaissance métier a été nécessaire afin de comprendre le
comportement hybride d’un consommateur de produit pétrolier mais aussi des services
proposés autour de ce besoin basique pour définir les bons critères de segmentation.
Egalement, il a fallu se doter d’une très bonne connaissance technique de l’entrepôt de
données afin de cibler et croiser les bons indicateurs.
Les buts de cet exercice ont donc été variés : segmenter la clientèle BtoB de Total en
analysant des comportements BtoBtoC ; apprendre à réaliser « en laboratoire » une
première itération d’analyse de données afin d’obtenir l’adhésion et l’engagement du
marketing pour les prochaines itérations ; comparer des solutions de restitutions de tableaux
de bords stratégiques et opérationnels. Au-delà de cette segmentation, un vrai travail
pédagogique pour la DSI et le métier à tous les niveaux a permis de capitaliser sur cette
expérience. La dimension progressive de l’investissement de Total en matière d’analyse de
données est ici mise en évidence puisque les moyens engagés étaient très limités (un
alternant Total, un alternant CGI, des données, et un serveur).
Ramené au Data Scientist, pour parvenir à réaliser cette segmentation, il a été nécessaire
d’avoir une bonne connaissance technique des disciplines classiques de la gestion des
données. Le SQL a suffi pour extraire les données mais ses limites ont été atteintes avec les
fonctions mathématiques utilisées. Nous aurions gagné à pouvoir utiliser des algorithmes de
clustering ou des arbres de décision.
L’autre savoir, complètement nécessaire, a été la connaissance fonctionnelle du Data
Warehouse et de toutes les données qu’il renferme. En effet, la complexité du modèle de
données a induit une certaine superposition des règles métier qui rendent le choix et la
définition d’un champ très complexe. La connaissance des métiers de Total, des règles
fonctionnelles des différentes entités et des clients, apportées par une experte de la DSI
nous a été primordiale dans la réussite de ce projet.
Pour réussir cette première itération, le placement proche de la DSI était important afin de
sélectionner et récupérer les données, de s’équiper au niveau matériel. De plus, les
spécifications fonctionnelles écrites, permissives, mais précises, ont permis de ne pas devoir
être en contact direct avec le métier. Cette première itération de réalisation a été la plus
longue et c’est généralisable à tous les projets de ce type.
Ensuite, une fois la première présentation au métier réalisée, c’est une question d’affinage
plus ou moins important, mais surtout fonctionnel. C’est pour cette raison que la proximité
avec le métier mériterait à ce moment-là d’être plus importante.
L’opportunité métier exprimée auprès du prestataire externe a été le déclencheur de
l’initiative de la DSI pour ce projet. L’impulsion aurait pu venir des deux parties sans
préférence mais ce qui a permis ce projet c’est la maturité et l’ouverture du métier à ce genre
de proposition, et l’envie d’innover et de monter en valeur de la DSI dans la proactivité.
32
L’opportunité métier exprimée auprès du prestataire externe a été le déclencheur de
l’initiative de la DSI pour ce projet. L’impulsion aurait pu venir des deux parties sans
préférence mais ce qui a permis ce projet c’est la maturité et l’ouverture du métier à ce genre
de proposition, et l’envie d’innover et de monter en valeur de la DSI dans la proactivité.
31
VUE GLOBALE Analyse Lexicale Entretien 1 Entretien 2 Entretien 3 Etude de cas 1 Etude de cas 2
Axes de recherche informations informations informations informations informations informations
Missions
business, products, clients - Mutation de l'avantage concurrentiel à avoir :
connaissance du marché - Mieux comprendre les
attentes - Informations plus précises et qui provient directement du
marché - Informations qui arrivent plus
rapidement - Parfois en temps réel
- Changement de culture dans l'entreprise (centrée produit
vers centrée marché) - Pour y parvenir nécessité d'avoir un nouveau profil technique et métier qui
comprend le marché et le produit
- Profil qui donne du sens aux données pour les transformer
en informations
- Big Data : un risque et une opportunité en même temps.
Ceux qui s’y mettront gagneront un avantage
concurrentiel - Mieux comprendre le
consommateur - Mieux savoir si son offre colle
au besoin - Permettre à l’entreprise de
mieux se connaitre elle-même - Résultat d’une adaptation de
la gouvernance de données - Comprendre et analyser
- Faire évoluer la culture vers moins d’instinct et davantage
de « speak with data » - Explorer, chercher
- Amélioration continue : nouveaux services, process, et
boucle de feedback
- Changement de rapport à la BI : avant, suivi de process
industriel et grand contrôle de gestion ; maintenant que Total
M&S a été mis en silo, nécessité de prendre des pratiques stratégiques de retailer
- Nouveau relai de croissance à aller chercher puisque les
produits pétroliers stagnent - Nécessité stratégique liée à un
BM BtoC ou BtoBtoC de connaître le client
- Segmentation des offres qui implique de devoir faire de
l’analyse de données - Le pricing n’est plus adapté aux réalités du marché et des segmentations de nos services
- Optimisation des investissements nécessaire - Données structurées avec
recherche de vérité, vers des données de moins en moins
structurées avec recherche de modèle probable : ce n’est plus
le même métier
- Faire face aux évolutions des métiers
- Favoriser l’innovation - Valorisation des données - Construire un laboratoire
d’idées au cœur du développement de services et
produits innovants - Réduire le time-to-market
- Etre réactif au besoin - Etre force de proposition
- Segmenter la clientèle BtoB - Apprendre à sortir des usages
classiques des données pour monter en valeur
- Comparer les solutions afin de disposer des outils adéquats pour restituer à l’utilisateur
Caractéristiques
experience, business, research, machine learning, team,
analytics, software, world, techniques, technologies,
clients, computer, management, design, modeling, statistical, engineering, systems,
technology, algorithmique, data mining, python, marketing, développement, analytical,
mobile, scientific, java, communication, langage R, reporting, hadoop, insights,
mathématiques, matlab, leadership
Technologique : outils, statistique, algorithmique
- DS spécialisé dans un secteur d'activité : expert métier
- Compétence : Curiosité, sens de l'innovation, pas peur du changement, recherche de
nouveautés, analytique, travail en équipe
- Toutes les compétences autour des données ainsi que du big data et des framworks qui l’accompagnent - Un DS
dans un service de data scientism peut se permettre de n’être qu’un expert spécialisé dans la donnée tant qu’il est
accompagné d’autres compétences autour
- Expertise technique autour de toutes les disciplines de la
donnée (SQL, NoSQL, Hadoop, Excel, …)
- Compréhension transverse des métiers de l’entreprise
pour adresser n’importe quel client interne
- « Geek », ouvert, curieux, « bricoleur », pédagogue
- Analyses statistiques pilotées ou non
- Prise de hauteur et compréhension stratégique et
opérationnelle des métiers - Compétences relationnelles et
de communication pour favoriser le développement
Agile
- Agile et flexible - Favorise l’itératif au cycle en V
- Palette Compétences BI complète
- Bonne connaissance technique de BDD, du DTW
Total, des fonctions mathématiques en SQL - Bonne connaissance
fonctionnelle du métier de Total et des problématiques
métier
32
Rôle
business, research, world - Dépend des organisations : si entreprise qui commercialise
un produit alors DS côté métier (4P), si entreprise qui
commercialise un service (intangible) alors côté DSI
- Plutôt que de parler de Data Scientist il est plus pertinent de
parler d’une équipe de Data Scientism dont les
protagonistes auront des compétences hautement
complémentaires - Mieux gérer la donnée auprès
de la DSI - Mieux comprendre les
problématiques métier et faire évoluer leur culture de la
décision
- « Fait chanter les données » - Produit des analyses non pas
vraies, mais probable sur lesquelles on peut construire
des offres pour aller au-delà du simple contrôle de gestion et
remplacer les décisions stratégiques instinctives
- Porter les nouveaux usages de la donnée
- Faire un pont entre le métier et la technique
- Croiser des données grâce à des fonctions mathématiques
pointues
Placement
business, products, across, marketing
- Sous le digital office ou le data officer porteur de la
tranformation digitale de l'entreprise
- à défaut, sous le directeur marketing
- orienté moyen et long terme : au siège
- Placé à la DSI car seule elle peut fournir ce service très
technique - Avec une co-direction ou un
co-management du métier pour permettre à celui-ci de
s’impliquer facilement dans le développement de ces
nouveaux usages
- Service en charge des données à la DSI
- S’appuie sur une TMA pour sécuriser ses résultats
- En interface entre DSI et Métier pour écouter, cerner, adresser, produire et livrer
- Près de la DSI en lien direct avec le métier
Quand
Experience - C'est la stratégie d'entreprise qui dicte ce besoin
- Dès que le besoin de transformer le business model
est présent - Toutes les entreprises qui
gagnent à connaitre le comportement du
consommateur, maintenant
- « Est-ce que la gestion des données a une importance dans
la réalisation et les enjeux de l’entreprise ? »
- Si oui, aussi vite que possible une fois le modèle de données
et les process modélisés
- Quand le métier est mature sur ce que peut lui apporter un
Data Scientist - Avoir fiabilisé et asservi sa BI
classique afin de pouvoir se mettre dans de bonne
conditions d’innovation
- Lorsque la mise en place de la stratégie nécessite la mutation
digitale de l’entreprise
- A l’expression d’un besoin métier de segmentation clients
Comment
research, labs - Cycles itératifs courts : 1 à 4 mois
- Détection de l'opportunité jusqu'au test de l'algorithme : 1
à 3 mois
- A manager comme un projet de transformation d’entreprise
- Inclure un management de projet innovant
- Agilité, Lean startup dans l’approche pour co-constuire, confiance, écoute et humilité,
transversalité - Pas de cadre mais un process
de formalisation du besoin ouvert
- Exploratoire et recherche
- Agilité - Brainstorming
- Recherche/ Laboratoire
- Cycle itératif technique court et rapide
- Boucle d’itération avec le métier plus longue afin
d’obtenir leur adhésion et de les « éduquer » sur les
problématiques de l’analyse de données
33
ANALYSE
SYNTHESE DU RECUEIL D’INFORMATIONS
De ces trois entretiens, deux études de cas, analyse lexicale et nombreuses lectures de
papiers de recherche, ont pu être dégagés des consensus. Répartis sur les 6 axes, pour
continuer d’avancer dans la caractérisation du Data Scientist et la définition de
l’environnement le plus à même d’apporter un retour sur investissement, il convient de
synthétiser simplement les informations et d’en enrichir encore le sens.
MISSIONS
Cette représentation résume et synthétise l’ensemble des attendus grâce aux nouvelles
possibilités apportées par les techniques et technologies de l’analyse de données.
Concrètement maintenant, il est possible de définir une fiche de mission du Data Scientist :
Détecter des opportunités :
Mesurer le futur de l’entreprise en termes de taux de pénétration des offres, de taille
et d’évolution du marché
Grâce aux données de l’entreprise, ses actifs, détecter des synergies permettant la
création de nouveaux produits ou services
Améliorer la connaissance du marché :
Détecter des opportunités
• Capacité à prévoir
• Dégager un avantage concurrentiel fort
Améliorer la connaissance du marché
• S'adapter plus rapidement
• Définir des offres plus précisément
Améliorer la connaissance de l'entreprise sur elle-même
• Réduire les coûts
• Accroitre le niveau de service et de valeur
• Optimiser les investissements
34
Réaliser une segmentation discriminante afin de cibler parfaitement sa clientèle et la
fidéliser
Comprendre les effets de levier des flux de consommation afin de faire évoluer ses
offres au plus proche du marché
Mettre en exergue tous les comportements autour des produits et du marché par des
données multi-canaux
Améliorer la connaissance de l'entreprise sur elle-même
Optimiser la gestion des centres de coûts en implémentant une modélisation
prédictive
Aux produits et les services, joindre des solutions data-driven qui augmentent la
valeur et le niveau de service apportés
Lors de décisions stratégiques d’investissements, fonder l’étude d’un modèle
probable de décision s’appuyant sur les données.
Porter le management et la gouvernance de la donnée dans un but d’enrichissement
quantitatif, qualitatif et en variété
CARACTERISTIQUES
Sur l’axe des savoirs, des compétences et des savoir-être, le recueil d’information a pu
mettre en évidence les bases qu’un Data Scientist devait posséder au minimum.
Voici le diagramme radar des compétences du Data Scientist parfait (tout à 100%) :
0 10 20 30 40 50 60 70 80 90
100 Analyse de données
Gestion des données
Architecture de traitement des données
Programmation diverse (Python, Java)
Connaissance métier/fonctionnelle
Capacité à travailler en équipe
Communication interpersonnelle
Management du changement
Sens de l'innovation
Curiosité
DATA SCIENTIST
35
Ce diagramme est à nuancer. En effet, la largeur du champ de compétence dépend de
l’équipe qui l’entoure et des compétences dont cette équipe dispose. D’une manière
générale, plus le Data Scientist sera seul, moins il sera spécialisé mais aura un éventail plus
de compétences plus large.
C’est pour cette raison que dans une entreprise dont les moyens pour ce service sont
importants, nous préfèrerons parler d’une équipe de Data Scientism dans laquelle les
compétences sont réparties et où chaque membre est spécialisé, davantage que d’un Data
Scientist seul, et inversement.
ROLE
Les missions du Data Scientist nous indiquent plutôt clairement quel sera son rôle :
• Détecter des opportunités
• Capacité à prévoir
• Dégager un avantage concurrentiel fort
• Améliorer la connaissance du marché
• S'adapter plus rapidement
• Définir des offres plus précisément
• Améliorer la connaissance de l'entreprise sur elle-même
• Réduire les coûts
• Accroitre le niveau de service et de valeur
• Optimiser les investissements
Pour les mener à bien, il devra être le chercheur, le mineur, qui parviendra à « faire chanter
les données ». Il aura donc un rôle d’explorateur et d’innovateur avide d’améliorer sans
cesse les processus, capacités décisionnelles, connaissances du marché et
services/produits de son entreprise. Concrètement, il faudra qu’il s’approprie les
problématiques des métiers pour tenter d’y apporter une réponse data-driven.
Au-delà du technicien de la donnée qu’il doit être, il aura un rôle d’évangélisateur au sein de
l’entreprise. En effet, il portera l’évolution culturelle des métiers sur ses épaules avec l’appui
d’un top management engagé. Il évoluera avec l’entreprise en distillant avec la pédagogie
nécessaire et fera adhérer le métier aux enjeux de sa mission afin d’obtenir toute la
collaboration nécessaire à la réussite des projets qui apporteront des relais de croissance à
son organisation.
Enfin, il portera la stratégie et la gouvernance des données de son entreprise dans l’objectif
de toujours développer cet actif de l’entreprise. Il devra être le porteur de la complétude, la
conformité, la cohérence, l’exactitude, l’unicité et l’intégrité des données, les six piliers d’un
36
management de la qualité de données. Dans le développement de la donnée, il est
également compris le management des données de référence mais également
l’enrichissement transactionnel. Les données sont dorénavant une ressource vitale de
l’entreprise donc le produit/service ou le business model est data-driven.
PLACEMENT
Concernant le placement du Data Scientist ou du service de Data Scientism dans
l’entreprise, il se dégage une relativité du recueil de données.
Pour plusieurs raisons, l’analyse de données ne peut s’éloigner de la DSI et n’arriver qu’en
support des métiers lorsque la maturité face aux nouvelles pratiques est faible. La première
raison est liée aux ressources dont a besoin le Data Scientist pour évoluer. Les données, les
solutions, les architectures, etc, ne sont facilement accessibles qu’en étant proche de la DSI.
De plus, le premier partenaire avec qui construire pour capitaliser sur de nouvelles
expériences est la DSI. La seconde raison est que les différents métiers ne sont pas prêts
culturellement, et en pratique, à passer à des processus de décisions complètement data
driven. Ils ont besoin aussi de capitaliser progressivement sur des évolutions mineurs qui
prendront de l’ampleur afin d’engager leur confiance, leur adhésion, et leur investissement
tant numéraire que temporel. Le Data Scientist n’aurait pas suffisamment à se mettre sous la
dent dès le départ et gaspillerait ses ressources.
C’est pour ces raisons que, dans un premier temps, grâce au recueil d’informations
préalable, cette représentation du placement du Data Scientist dans l’organisation. Le choix
de la chaine de valeur de Michael Porter, bien qu’elle ne soit pas aussi adaptée à un
Assureur qu’à une Manufacture, permet de dégager une représentation générique, bien
connue et laissant de côté les nombreux types d’organisations qu’il existe aujourd’hui mais
en concentrant sur une vision « valeur » pour l’entreprise :
Dans un second temps, lorsque l’organisation aura acquis la maturité nécessaire, elle devrait
se diriger vers une intégration du Data Scientism à tous les niveaux de la création de valeur,
et même dans les autres fonctions supports.
Infrastructure de l’entreprise
Approvisionnements
Gestion des ressources humaines
Développement technologique, R&D + Data Scientism
Logistique
Interne
Production Logistique
Externe
Commercialisation
et vente Service
Ma
rge
Activités Principales
Su
pp
ort
s
Chaine de valeur de Michael Porter – Maturité Big Data faible
37
En effet, en allant au bout du raisonnement, et pour accentuer l’avantage concurrentiel qui
peut s’établir à chacune des étapes d’injection de valeur dans le produit ou le service, le
Data Scientism devrait être présent à toutes ces étapes de l’activité principale. Ainsi, pour
porter le fait que le Data Scientist est spécialiste d’un métier sur un secteur, il devrait être
présent « personnellement » sur chaque étape indépendamment des autres tous en créant
des synergies transversales. Cela voudra aussi dire que chaque métier de l’entreprise sera
adepte des pratiques de l’analyse de données.
Créer de la valeur, la capturer, et dégager un avantage concurrentiel peut se produire à
n’importe quel niveau de cette chaine de création de valeur de Michael Porter. En support de
ces métiers formés aux analyses de données ou comportant un Data Analyst, il y aurait un
Digital Office, ou Data Office, porteur de la stratégie digitale globale de l’entreprise et offreur
de solutions de manière transverse :
QUAND
Plusieurs éléments peuvent déclencher le besoin d’accéder à la valeur de l’analyse de
données. Le premier est le besoin de mieux connaître son marché. L’analyse de données
est par essence un moyen de mieux cerner les leviers qui font passer à l’acte de
consommation les clients et usagers. Alors, si un besoin de mieux connaitre son marché est
présent, alors il est nécessaire pour dégager un avantage concurrentiel ou un relais de
croissance de se démarrer des activités d’exploration de données. Typiquement, ce peut
être à l’expression d’un besoin métier, d’une question stratégique laissée sans réponse, ou
encore de l’échec d’un lancement produit ou d’une campagne marketing.
Le second besoin peut venir d’une nécessité de transformer son business model à cause
d’un marché devenu stagnant, décroissant, sans perspectives… Alors, en se servant de
l’expérience et de ses produits et services déjà sur le marché, transformer son business
model en utilisant des technologies analytiques est une option à considérer.
La réponse est donc quasiment toujours : « maintenant ».
Chaine de valeur de Michael Porter – Maturité Big Data avancée
Infrastructure de l’entreprise
Approvisionnements
Gestion des ressources humaines
Développement technologique, R&D, Digital/Data Office
Logistique
Interne
+ Data Scientism
Production
+ Data Scientism
Logistique
Externe
+ Data Scientism
Commercialisation
et vente
+ Data Scientism
Service
+ Data Scientism
Ma
rge
Activités Principales
Su
pp
ort
s
38
Cependant, certains pré-requis sont nécessaires pour parvenir à installer une stratégie
digitale. Le premier est la maturité du métier pour le faire évoluer vers des usages qu’ils ne
maîtrisent pas forcément encore. Il ne faut pas sous-estimer le chemin à parcourir pour faire
évoluer une culture d’instinct vers du « speak with data ».
Le second pré-requis est d’avoir le temps pour se préoccuper de demain sans qu’aujourd’hui
ne soit chaotique. En effet, se placer dans un environnement nutritif10, propice à l’innovation,
n’est pas possible lorsque le récurent et le quotidien sont chronophages, préoccupants.
Le dernier pré-requis tiré du recueil d’informations de cette étude est d’avoir formalisé un
modèle de processus et le modèle de données qui servira au mieux l’organisation. Chaque
entreprise est unique et comprend ses particularités qui ne lui permettent pas d’installer un
système complètement générique.
COMMENT
De par la nécessité d’inclure le « client » du développement de l’analyse de données tout au
long du design de l’algorithme, du modèle, pour la compréhension fonctionnelle des
données, et de la question à adresser, un management Agile est apparu comme
incontournable selon chacune des sources du recueil d’informations. Non seulement l’Agilité
est de mise, mais il serait préférable de raccourcir au maximum les boucles itératives afin de
co-construire une solution qui bénéficiera de tous les apports techniques et business
nécessaires. En effet, tout au long de cette étude, il est démontré que la connaissance
métier est omniprésente et indispensable pour parvenir aux fins qui feront prospérer
l’organisation.
Les cycles itératifs sont nécessaires pour pallier à plusieurs problèmes. Nous sommes sur
de nouvelles disciplines dont les meilleures pratiques commencent à peine à émerger. C’est
d’ailleurs la raison d’être de cette thèse. Afin de gérer l’incertitude liée aux projets
analytiques, les allers-retours avec le client afin de co-construire une solution qui répond aux
attentes techniques et fonctionnelles sont nécessaires. Pour impliquer, engager et faire
adhérer l’utilisateur avant même la mise à disposition de la solution pour commencer, mais
également pour faire bénéficier le développement de tout le savoir nécessaire au bon
déroulement du projet. La portée pédagogique d’un développement itératif est utile dans
cette situation où le métier doit évoluer culturellement dans ses pratiques. Rappelons-nous
que nous voulons purement et simplement changer le métier de l’utilisateur de l’instinctif vers
du « speak with data ». Tout au long d’un projet analytique des choix fonctionnels
déterminants seront faits. Eviter l’effet tunnel est le gage d’un biais réduit dans ces choix.
Cependant, les enjeux et difficultés techniques sont importants. Dans le recueil
d’informations nous avons pu avoir des recommandations précises sur la première itération
post-spécifications qui devrait prendre de 1 à 3 ou 4 mois. Cette durée est indispensable
pour produire une première version d’un modèle, algorithme, qui tranche. Les itérations
suivantes seront plus courtes car il ne s’agira principalement que de petites retouches
fonctionnelles, l’obtention de feedbacks métier ou marché étant vitale pour un produit dont le
cœur tourne essentiellement autour de sa cible.
L’autre aspect de ce service de Data Scientism serait, d’après les données recueillies, de le
manager avec la bienveillance financière la plus totale. En effet, évoluant complètement
dans le milieu incertain de l’innovation, laisser la place à l’échec pour encourager les essais
39
et prises de risques est primordial pour obtenir un résultat. Le champ d’exploration, de
recherche, de minage est si vaste que toutes les tentatives ne seront pas fructueuses.
Trouver une pierre précieuse dans le lit d’une rivière requiert au préalable d’avoir trouvé la
rivière par hasard et d’avoir effectué de nombreux prélèvements infructueux.
Bien que les données ne le fassent pas ressortir le plus souvent, l’utilisation d’une
méthodologie Lean liée au marketing de l’innovation semble être un alliage managérial
correspondant aux enjeux d’un tel projet.
40
PARTIE CONCLUSIVE
DISCUSSION / CONCLUSION
APPORTS THEORIQUES
Les données sont une opportunité qu’il ne faut pas laisser aux autres au risque de regarder
passer le train qui définit les contours du monde économique de demain. Cette thèse
professionnelle est avant tout un plaidoyer encourageant à profiter des avantages procurés
par une stratégie digitale étendue. De manière théorique, toute la valeur et tous les
avantages concurrentiels tant internes qu’externes ont été définis.
Le prolongement de cette démonstration est le « Oui mais comment ? ». C’est pour cette
raison que la définition, et le dégrossissement théorique et pratique du Data Scientism est
dans une continuité logique. Beaucoup d’encre a coulé pour définir les techniques et
technologies de l’analyse de données, mais moins concernant les personnes qui les
utiliseront et les mettront en pratique. Le recueil d’informations selon les six axes, son
analyse, et les conclusions théoriques ont permis de tirer des recommandations pratiques
sur la mission, les caractéristiques nécessaires, le rôle, le placement, à quel moment, et de
quelle manière installer un Data Scientist, ou du moins le Data Scientism, pour obtenir les
meilleurs résultats possibles.
Détecter des opportunités, améliorer la connaissance du marché et améliorer la
connaissance de l'entreprise sur elle-même, telle est la mission du Data Scientist définie
précisément dans cette thèse.
Savoir qui doit recruter l’entreprise pour parvenir à ses fins est un enjeu important. Les
savoirs, savoir-faire et savoir-être ont pu être définis dans cette thèse. Bien entendu
l’analyse de données mais aussi leur gestion et les architectures qui les hébergent sont des
compétences primordiales. En plus, il est nécessaire de rechercher des compétences
mathématiques, algorithmiques, statistiques et en programmation pour compléter le panel.
Ce qui a pu être mis en exergue, c’est la nécessité d’une connaissance métier, marché et
sectorielle. Les compétences managériales importantes ont aussi été définies et justifiées.
La capacité à travailler en équipe, la communication interpersonnelle, le management du
changement, de l’innovation et la curiosité sont les piliers d’un Data Scientist se rapprochant
du chercheur opérationnel.
Les rôles du Data Scientist ont également été théorisés et définis. Le principal reste sa
responsabilité d’adresser les missions détaillées plus haut. Mais il a été démontré son
importance dans l’alimentation de la stratégie et de la gouvernance des données et le
développement de ce nouvel actif de l’entreprise qu’il faudra à l’avenir voir comme une
ressource à part entière. Son rôle pédagogique et de médiateur du changement n’est pas
non plus à sous-estimer pour permettre l’évolution culturelle métier nécessaire pour le faire
passer dans une nouvelle dimension.
Le placement du Data Scientism dans l’organisation est le sujet dont la géométrie variable
entraine de vives discussions. Dans cette thèse a été pris le parti d’utiliser comme mesure la
maturité du métier fasse à l’analyse de données. Ainsi, l’évolution du placement du Data
Scientism dans l’entreprise est fonction de la maturité. Pour accompagner un métier peu
mature sur l’analyse de données, le Data Scientism se placera plutôt dans support au côté
41
de la DSI et de la R&D de l’entreprise. Avec une maturité suffisante, le Data Scientism sera
intégré dans les processus métiers et les services seront dotés des compétences
nécessaires à la gestion quotidienne des besoins. En support sera placé alors un Digital ou
Data Office en charge de la stratégie et gouvernance globale de la stratégie digitale qui
appuiera les métiers dans leur démarche.
Le sujet du moment où l’entreprise devrait se lancer dans l’analyse de données a également
été éclairci. Bien que la réponse soit « le plus rapidement possible » pour la plupart des cas,
quelques pré-requis ont été posés. Le premier est l’adhésion du métier à la démarche.
Ensuite, il sera nécessaire de formaliser le modèle de processus et de données qui répond
correctement aux besoins de l’entreprise. A ce moment là, l’organisation sera en mesure de
se lancer, et même, devrait se lancer dans l’analyse de données.
Enfin, la manière dont doit être organisée l’action du Data Scientist dans l’entreprise a pu
être complètement dégrossie. Agilité, processus itératif, management et marketing de
l’innovation et de son incertitude, souplesse financière, tels sont les maitres mots d’une
démarche nouvelle, transverse, transparente, pédagogique qui fonctionne.
LIMITES THEORIQUES
La définition des caractéristiques n’a pu être définie ne manière satisfaisante. Il aurait été
préférable de pourvoir dégager des technologies, techniques et langages précis pour aider
les organisations à mieux recruter ou détecter des compétences déjà présentes en interne.
La qualité des résultats de l’analyse quantitative est dépendante du nombre d’annonces
d’emploi récupérées.
La théorisation de l’environnement managérial et procédural dans lequel le Data Scientist
apporterait un retour sur investissement le plus important reste superficiel. Ce pourrait être
l’objet d’une autre thèse entière. Des pistes de réflexion ont pu être dégagées, l’esprit
général également, mais sans framework précis transposable.
LIMITES METHODOLOGIQUES
Une des limites de la méthode utilisée est sa propension à enfermer l’étude dans du
classique et de limiter le champ exploratoire. Cela empêche d’aller chercher une solution
théorique de rupture et aurait pu risquer de garder les résultats dans des principes erronés.
De plus la partie quantitative de l’étude s’est limitée à 78 annonces. Difficile de savoir si cet
échantillon est complètement représentatif et pertinent.
Enfin, concernant les entretiens, j’aurai aimé pouvoir multiplier les entretiens et varier les
profils des interviewés afin de rendre l’étude plus interactive et plus riche dans cette partie du
recueil d’informations.
PISTES DE PROLONGEMENT
42
Un des premiers prolongements pourrait être la définition précise de chacune des
compétences techniques nécessaires au lancement de Data Scientism dans l’entreprise afin
de clore complètement ce sujet qui est pour l’instant aussi compliqué que les nombreuses
technologies Open Sources sorties pour traiter le Big Data.
Etudier la portée de la transformation de l’entreprise liée à l’évolution du business model ou
de révolution culturelle métier est nécessaire pour prolonger toutes les recommandations
managériales et procédurales de cette étude. Les changements nécessaires pour que
l’organisation tire le maximum de ses données sont peut être plus importants ou radicaux et
cette étude n’est pas en mesure de le dire.
43
ANNEXES
ANALYSE LEXICALE COMPLETE
Mot Longueur Nombre Pourcentage pondéré (%)
data 4 389 1,69
experience 10 171 0,74
vous 4 162 0,70
business 8 132 0,57
research 8 131 0,57
dans 4 111 0,48
pour 4 99 0,43
learning 8 93 0,40
machine 7 84 0,36
work 4 79 0,34
plus 4 76 0,33
skills 6 76 0,33
données 7 74 0,32
team 4 72 0,31
google 6 71 0,31
solutions 9 69 0,30
scientist 9 66 0,29
science 7 63 0,27
analytics 9 60 0,26
notre 5 60 0,26
analysis 8 59 0,26
years 5 56 0,24
products 8 55 0,24
avec 4 51 0,22
software 8 51 0,22
world 5 50 0,22
information 11 49 0,21
techniques 10 49 0,21
technologies 12 49 0,21
description 11 48 0,21
development 11 47 0,20
knowledge 9 47 0,20
yahoo 5 47 0,20
clients 7 46 0,20
large 5 46 0,20
product 7 46 0,20
degree 6 45 0,20
profil 6 45 0,20
computer 8 44 0,19
design 6 44 0,19
management 10 42 0,18
nous 4 42 0,18
problems 8 42 0,18
44
qualifications 14 42 0,18
services 8 42 0,18
ability 7 41 0,18
modeling 8 41 0,18
statistical 11 41 0,18
strong 6 41 0,18
technology 10 41 0,18
engineering 11 40 0,17
systems 7 40 0,17
algorithms 10 39 0,17
mining 6 38 0,16
across 6 36 0,16
least 5 36 0,16
projects 8 36 0,16
python 6 36 0,16
statistics 10 36 0,16
votre 5 36 0,16
formation 9 35 0,15
marketing 9 35 0,15
related 7 35 0,15
scale 5 35 0,15
using 5 35 0,15
working 7 35 0,15
algorithmes 11 34 0,15
develop 7 34 0,15
teams 5 34 0,15
équipe 6 34 0,15
développement 13 33 0,14
poste 5 32 0,14
recherche 9 32 0,14
analytical 10 31 0,13
help 4 31 0,13
mobile 6 31 0,13
performance 11 31 0,13
scientific 10 31 0,13
user 4 31 0,13
java 4 30 0,13
statistiques 12 30 0,13
technical 9 30 0,13
environment 11 29 0,13
expertise 9 29 0,13
missions 8 29 0,13
outils 6 29 0,13
security 8 29 0,13
tools 5 29 0,13
labs 4 28 0,12
real 4 28 0,12
required 8 28 0,12
search 6 28 0,12
communication 13 27 0,12
organization 12 27 0,12
45
company 7 26 0,11
expérience 10 26 0,11
language 8 26 0,11
sein 4 26 0,11
sont 4 26 0,11
offre 5 25 0,11
partners 8 25 0,11
place 5 25 0,11
reporting 9 25 0,11
field 5 24 0,10
gender 6 24 0,10
high 4 24 0,10
société 7 24 0,10
analyzing 9 23 0,10
customers 9 23 0,10
including 9 23 0,10
intelligence 12 23 0,10
quality 7 23 0,10
responsabilités 15 23 0,10
understanding 13 23 0,10
apply 5 22 0,10
build 5 22 0,10
cette 5 22 0,10
closely 7 22 0,10
drive 5 22 0,10
entreprise 10 22 0,10
hadoop 6 22 0,10
scientists 10 22 0,10
service 7 22 0,10
compétences 11 21 0,09
d’une 5 21 0,09
engineers 9 21 0,09
leader 6 21 0,09
model 5 21 0,09
opportunity 11 21 0,09
preferred 9 21 0,09
programming 11 21 0,09
quantitative 12 21 0,09
users 5 21 0,09
based 5 20 0,09
d'une 5 20 0,09
insights 8 20 0,09
like 4 20 0,09
status 6 20 0,09
time 4 20 0,09
academic 8 19 0,08
areas 5 19 0,08
avez 4 19 0,08
committed 9 19 0,08
employment 10 19 0,08
fluent 6 19 0,08
46
location 8 19 0,08
make 4 19 0,08
mathématiques 13 19 0,08
methods 7 19 0,08
models 6 19 0,08
provide 7 19 0,08
vmware 6 19 0,08
applications 12 18 0,08
demonstrated 12 18 0,08
global 6 18 0,08
highly 6 18 0,08
matlab 6 18 0,08
modèles 7 18 0,08
nouveaux 8 18 0,08
online 6 18 0,08
part 4 18 0,08
participate 11 18 0,08
traitement 10 18 0,08
also 4 17 0,07
analyse 7 17 0,07
client 6 17 0,07
community 9 17 0,07
connaissances 13 17 0,07
content 7 17 0,07
create 6 17 0,07
croissance 10 17 0,07
english 7 17 0,07
forte 5 17 0,07
informatique 12 17 0,07
leadership 10 17 0,07
looking 7 17 0,07
mise 4 17 0,07
mission 7 17 0,07
opportunities 13 17 0,07
platforms 9 17 0,07
project 7 17 0,07
relevant 8 17 0,07
requirements 12 17 0,07
responsibilities 16 17 0,07
results 7 17 0,07
type 4 17 0,07
valeur 6 17 0,07
youtube 7 17 0,07
également 9 17 0,07
able 4 16 0,07
advertising 11 16 0,07
capacité 8 16 0,07
creating 8 16 0,07
d'un 4 16 0,07
excellent 9 16 0,07
good 4 16 0,07
47
INTERVIEWS
RENAUD COCHET
1 – But d’un Data Scientist (Pourquoi)
Pourquoi les données changent la donne pour l’entreprise dès aujourd’hui et demain
?
Loi de moore.
Données disponibles : 2 ans pour générer autant de données qu’en tout temps.
Risque et opportunité
Risque : sécurité, difficulté
Opportunité : ceux qui sauront gérer cette donnée pourront accéder a des avantages
concurrentiels importants.
Nouveaux services.
De quels avantages l’entreprise pourra-t-elle bénéficier ?
Selon sa capacité à les interprétrer :
1 – Mieux comprendre le consommateur
2 – Mieux savoir si son offre colle au besoin
3 – Mieux se comprendre elle-même
Pourquoi les compétences en entreprises sont insuffisantes actuellement ?
Plusieurs facteurs :
- Schémas traditionnels de gouvernance et d’exploitation du SI alors que tout change :
- Faire face à l’afflue de données (quantité, variété)
- Gouvernance dépassée, inadaptation
- Industrialisation des méthodes et des techniques très peu avancée : maturité
insuffisante (open source) antinomique avec une boite du CAC40
- Les entreprises n’investissent pas assez car ils n’ont pas intégré les avantages
concurrentiels à gagner
- Sous estimation des enjeux
Pourquoi le rôle du Data Scientist (DS) va être prépondérant dans le traitement de la
donnée ?
48
Le DS n’est pas un héro, mais c’est une prise de conscience générale dans l’entreprise à
faire.
2 – Rôle (Qui)
Comment définissez-vous le rôle du DS dans l’entreprise ?
Le DS ne sera pas une seule personne.
Chez google le CTO est peut être un mouton à 5 pattes mais pas ailleurs.
Data Scientism :
1 Comprendre analyser
2 Faire évoluer la culture vers du « speak with data » : évangéliste : contribue à ce que
l’entreprise travaille davantage avec la donnée plutôt qu’avec l’instinct
3 Creuser « diger », explorer, chercher, tirer la substantifique moelle
4 Amélioration : nouveaux services, modification de process, boucle de retour et de
feedback
3 métiers différents process/métier, BI, Evangeliste, algo
Comment définissez-vous le rôle du DS auprès de la DSI ?
Aider la DSI à … Voir au dessus.
L’aider à mieux gérer la donnée pour les métiers
Comment définissez-vous le rôle du DS auprès du Métier ?
Aider le métier à … Voir au dessus.
Mieux comprendre, faire évoluer la culture, etc
3 – Caractéristiques (Quoi)
Quelles compétences techniques attribuez-vous au DS ?
Toutes les compétences autour des données, qualité, modèle de données
Manipulation de données et leurs outils
Maitriser les disciplines du big data
4V : volumétrie, vitesse (gérer la donnée en temps réel : exemples…), variété (segmentation,
text mining, semantique), véracité (capacité analytique de stat, mesurer la fiabilité de l’algo
par exemple) qualité des données, choix des données.
49
Maitriser les frameworks techniques qui sont autour de tout ça.
Techno open sources + SAS + SAP + Microsoft être capable de choisir quelles solutions
pour quel cas
Multiplicité des techniques ne permet pas à une seule personne d’être opé.
Quelles compétences métier attribuez-vous au DS ?
Comprendre le modèle de données (comprendre les process (complexes selon les
entreprises))
Tout est dans la compréhension des process et de leur compléxité car BM compliqué car
entreprise compliquée (exemple Total avec les métiers de ses 3 entreprises).
Quelles compétences « humaines » attribuez- vous au DS ?
Possibilité d’avoir seulement un gros Geek.
Selon le modèle du service de data scientism :
- Un mec qui sait communiquer
- Un mec en logique d’innovation
- Un mec qui évalue, qui est pédagogue pour faire évoluer les modèles
CQFD sur le fait qu’un profil est divisé en plusieurs.
4 – Placement dans l’entreprise (Où)
Sous quelle direction placeriez-vous le DS ?
Sous le DSI (enfin plus considéré comme un fournisseur)
Nouvelle ère du SI. Seule la DSI peut fournir un tel service.
De plus en plus les métiers ont envie de participer à la transfo digitale, donc il faut les
impliquer le maximum (co-direction, co-management), et cette co-direction doit être faite par
le métier le plus important pour la réussite de l’entreprise. (Exemple : Total MS = Marketing ;
Sanofi = R&D ; ST Micro = accélérer les itérations d’innovation)
Géographiquement dans l’entreprise, où placeriez-vous le DS ?
Cellule au plus proche de la DSI et des dirigeants.
5 – A quelle étape de maturité de l’entreprise (Quand)
Quels sont les pré-requis que devraient remplir l’entreprise avant de se doter d’un
DS ?
Aucun. ASAP.
Démarche itérative qui part de pas grand-chose pour itérer et améliorer en déclenchant des
besoins (on part de rien, puis on itère).
50
Mais le selon le modèle de data scientism :
1 Formaliser le data model, formaliser les process
2 Vision claire
3 Vision claire, priorité
4 Pareil, infrastructure et gouvernance
Comment juger si une entreprise devrait se doter d’un DS ?
« Est-ce que la gestion de la donnée a une importance dans la réalisation et les enjeux de
l’entreprise ? »
6 – Avec quels moyens (Comment)
Quel type fonctionnement recommanderiez-vous ? (Typologie de management de
projet)
La cellule de DS sera à l’origine de transformation de Business et de BM.
Même typologie qu’une transformation d’entreprise.
Pour tenir compte de la maturité fluctuante, privilégier une démarche Agile et itérative.
Le défi est dans la mise en œuvre des idées davantage que dans l’idée.
De quels process entoureriez-vous le DS s’il devait y en avoir ?
Voir ci-dessus.
Dans quelle mesure les entreprises devraient investir ?
Beaucoup plus massivement.
Le gérer comme un projet de transformation d’entreprise.
Le gérer comme un projet d’innovation et avec le droit à l’échec.
7 – Ouverture
Pas insuffisant partout
THIBAUT REBOULLET
1 – But d’un Data Scientist (Pourquoi)
Pourquoi les données changent la donne pour l’entreprise dès aujourd’hui et demain
?
51
La donnée caractérise l’avantage concurrentiel (avant c’était le produit). La donnée permet
de se différencier dans un environnement marché, ça permet la personnalisation, créer de la
valeur autour du cœur de métier.
De quels avantages l’entreprise pourra-t-elle bénéficier ?
Mieux comprendre les attentes.
Maintenant on peut avoir des info plus précises en un lien direct.
Les comprendre plus vite.
Temps réel grâce aux données.
Aussi bien données internes qu’externes.
Pourquoi les compétences en entreprises sont insuffisantes actuellement ?
Changement de culture dans l’entreprise.
Les entreprises anglosaxones sont très en avance sur la culture par rapport aux latins.
Anglosaxons ouvert au marketing et à la com’
Latins (français) focalisés sur le produit.
Prise de conscience d’un besoin de changement chez les anglosaxons.
Pourquoi le rôle du Data Scientist (DS) va être prépondérant dans le traitement de la
donnée ?
Une nouvelle fonction complémentaire dans l’entreprise. Mix DSI – Métier. Profil hybride.
Michelin Solutions : data scientist (Stat algo, connaissent le monde du pneu, mathématiques,
SI)
Révélateur et donne du sens aux données pour les transformer en informations
2 – Rôle (Qui)
Comment définissez-vous le rôle du DS dans l’entreprise ?
Comment définissez-vous le rôle du DS auprès de la DSI ?
Ça dépend des organisations.
Lorsque c’est orienté produit : coté métier. (4P)
Lorsque c’est orienté service : coté DSI. (intangible)
Comment définissez-vous le rôle du DS auprès du Métier ?
3 – Caractéristiques (Quoi)
52
Quelles compétences techniques attribuez-vous au DS ?
Technologique : outils stat
Algo stat
Quelles compétences métier attribuez-vous au DS ?
« Sur Paris il y a moins de 50 DS qui existent »
Un DS est spécialisée par secteur d’activité. Expert métier
Quelles compétences « humaines » attribuez- vous au DS ?
Curiosité, sens de l’innovation, pas peur du changement, recherche de nouveauté,
analytique, talent de travail en groupe.
Le vrai DS il n’a pas besoin qu’on lui explique le secteur dans lequel il travaille.
4 – Placement dans l’entreprise (Où)
Sous quelle direction placeriez-vous le DS ?
Sous le Digital officer, ou Data Officer.
Directeur Marketing.
Géographiquement dans l’entreprise, où placeriez-vous le DS ?
Pas de gens orientés opérations.
Moyen terme et long terme Siège.
C’est les commerciaux qui font remonter les insights potentiels pas le DS qui va chercher les
infos même s’il peut y aller mais c’est pas nécessaire.
5 – A quelle étape de maturité de l’entreprise (Quand)
Quels sont les pré-requis que devraient remplir l’entreprise avant de se doter d’un
DS ?
Stratégie d’entreprise qui dicte ça.
Quand elle sent qu’elle a besoin de la donnée pour innover ou garder son leadership.
Dès qu’on essaye de transformer son business model
Comment juger si une entreprise devrait se doter d’un DS ?
Bcp d’entreprises se posent la question, beaucoup ne connaissent pas trop.
Toutes les entreprises autour du comportement clients.
6 – Avec quels moyens (Comment)
53
Quel type fonctionnement recommanderiez-vous ? (Typologie de management de
projet)
Cycle itératif court (1 à 4 mois)
Détection de l’opportunité jusqu’au test de l’algo : 1 à 3 mois.
De quels process entoureriez-vous le DS s’il devait y en avoir ?
Le plus près du métier possible. Remplace AMOA et le MO.
Dans quelle mesure les entreprises devraient investir ?
A très court terme : ceux qui doivent investir sont en train de le faire et le font déjà.
Toutes les entreprises vont y passer. Transformation digitale.
Fonction DS mise en avant par la transfo digitale.
7 – Ouverture
DS qui se nourrit des nouvelles briques applicatives. (data viz)
DS est un Data miner amélioré (data miner connait bien l’algo).
ARNAUD THOMAS
1 – But d’un Data Scientist (Pourquoi)
Pourquoi les données changent la donne pour l’entreprise dès aujourd’hui et demain
?
Avant : Dans le contexte Total, boite indus. Et les données avaient 2 objectifs :
- Suivre un process industriel
- Grand contrôle de gestion
On était sur de la BI retroviseur. Niveau management très opérationnel.
Après : boite du retail. Secteur en forte décroissance (BtoB (contrat renégocié à la baisse) +
écologie qui fait ça consomme moins.
Marché mature qui dégage moins de marge.
D’où le besoin de faire du BtoC et du BtoBtoC Axe client. Connaitre le client.
Segmentation du client
Total Rouge + Elf avant.
Total Rouge : haut de gamme, premium BtoBtoC
54
Total Access : grand public, consommateur particulier BtoC
Total Proximity : (élan) réseau bien maillé. Multi services.
Besoin de mieux connaitre vos offres pour segmenter.
Du coup besoin des données pour faire ça. Et puis c’est à la mode. Un grand groupe doit
suivre ça.
Conjonction de 3 points qui font que Total est prêt.
De quels avantages l’entreprise pourra-t-elle bénéficier ?
Si on va en bout de chaine : optimisation du RO Net. Gagner de l’argent. Tout ce qui ramène
pas d’argent est hors sujet.
Avantages :
- Stations services franchises : Même prix partout alors qu’il faudrait avoir des
offres plus adaptés.
- Relation directe avec les consommateurs : s’adresser avec le bon discours au
bon consommateur
- Optimisation des investissements (corner brioche dorée ou carglass ?)
Pourquoi les compétences en entreprises sont insuffisantes actuellement ?
Contrôle de gestion modèle très structuré ou on cherche une vérité.
Nouveau monde de pistes de proba, de stat. De « tendances ». On cherche des
segmentations choquantes. Avoir des choses qui surprennent.
Equipe habituée à faire de la vérité // Equipe capable de grater, de chercher
Nouvelle techno. (avant c’était la donnée qui était compliquée maintenant c’est la techno).
Back office front office
Cycle en V Agilité. Avant les métiers connaissaient ce qu’ils voulaient. Maintenant ils sont
dans l’exploratoire.
Pourquoi le rôle du Data Scientist (DS) va être prépondérant dans le traitement de la
donnée ?
A court terme besoin d’un DS pour faire, pour construire une offre, pour montrer que ce
métier a du sens à la DSI et chez Arnaud en particulier.
Batiste : fonctionnel nickel, animation et brainstorming nickel.
55
DS : time to market, expertise technique
DS : un role parmi 4 importants. MOE Vs MOA.
Manque d’une force de frappe pour dérouler tout ça : besoin d’un DS pour que la DSI garde
une vision transversale, durable, multimétier, pas « du prêt à porter ».
DSI utile pour les données.
Prêt à porter par viable.
2 – Rôle (Qui)
Comment définissez-vous le rôle du DS dans l’entreprise ?
Il est là pour faire chanter les données.
Soit avec une problématique métier, mais aussi sans.
Sait définir les limites de ce qu’il produit et ouvrir.
Fait le bourrin dans un cadre prédéfinit.
Comment définissez-vous le rôle du DS auprès de la DSI ?
Problématiques techniques et techno à ne pas sous-estimer : besoin techniques trop
compliqués
Transversalité pour répondre aux métiers adressable pour la DSI
Jointure floue : extraction et jointure difficile.
Identification, extraction, jointure, stockage.
Comment définissez-vous le rôle du DS auprès du Métier ?
Correspondant interne DSI qui connait les métiers qui n’est pas Data scientist
2nde interface : business analyst, qui alimente et formalise.
- Analogie architecture/ conducteur de travaux
3 – Caractéristiques (Quoi)
Quelles compétences techniques attribuez-vous au DS ?
Geek, ouvert, curieux, bourrin, pas en charge de la relation client, pédagogique (prise de
hauteur), mais avec une interface, pas forcément mathématicien à voir…
Intagration de données interne et externe (SQL, NoSql, Hadoop, Excel, …), peu importe la
nature
56
Manipulation d’analyse stat plus ou moins pilotée.
Maitrise des bases etc : geek.
Quelles compétences métier attribuez-vous au DS ?
Posture vis-à-vis du métier : compétence qui dépend du business analyst.
Grand levier, problématique et stratégie du métier (passés ou futurs).
Connaitre les grands leviers.
Boucles métier
Quelles compétences « humaines » attribuez- vous au DS ?
Compétences humaines pour faire du projet Agile.
4 – Placement dans l’entreprise (Où)
Sous quelle direction placeriez-vous le DS ?
Centre de service Data de la DSI
Géographiquement dans l’entreprise, où placeriez-vous le DS ?
Les 4 dans un bureau. Mais disparition de la reflexion individuelle.
La distance fait prendre du recul.
Le DS secoue le business analyst.
Equilibre entre secouage distance proximité.
5 – A quelle étape de maturité de l’entreprise (Quand)
Quels sont les pré-requis que devraient remplir l’entreprise avant de se doter d’un
DS ?
Argent
Faire comprendre à tout le monde que cette personne a sa place.
Prouver sa valeur par des cas d’usages, et des réussites.
Etre capable de casser le mythe.
Fournisseurs qui vendent du miracle, et qui ne font pas la pédagogie pour montrer que ce
n’est pas un miracle.
Lean startup pour obtenir l’adhésion. Valeurs prouvées.
Faut pas être trop occupé par le récurrent pour pouvoir innover
57
Stratégie retail qui fait son apparition Marketing
Comment juger si une entreprise devrait se doter d’un DS ?
La condition sine quanon : maturité métier pour fournir et accompagner le technicien.
Le reste c’est que les moyens.
La contrainte, et la pression stimule.
6 – Avec quels moyens (Comment)
Quel type fonctionnement recommanderiez-vous ? (Typologie de management de
projet)
Agilité, Lean startup, confiance, écoute, transversalité.
Humilité (Vs expertise.)
De quels process entoureriez-vous le DS s’il devait y en avoir ?
Pas de cadre.
Mais attention process de formalisation de besoin et d’attente et de demande. Process
ouvert
Process agile
Exploratoire / recherche
Dans quelle mesure les entreprises devraient investir ?
Progressif. 0,5 à 2 ETP
Autant de DS que de Business Analyst.
Licences très chères car peu de personnes les utilisent.
58
REFERENCES
Atkinson, P., 2013. Managing change and building a positive risk culture. Management
Services, Eté, pp. 9-13.
Bartik, D., 2013. Breaking down the five most common Big Data Myths. Database Trends
and Applications, Septembre, pp. 32-33.
Begg, C. & Caira, T., 2012. Exploring the SME Quandary: Data Governance in Practise in
the Small to Medium-Sized Enterprise Sector. The Electronic Journal Information Systems
Evaluation, 15(1), pp. 3-13.
Brands, K., 2014. Big Data and Business Intelligence for Management Acountants. Strategic
Finance, Juin, pp. 64-65.
Burkett, H., 2011. Data Driven Strategies that add value. Performance Improvement, 50(5),
p. 2.
Chen, H., Chiang, R. H. L. & Storey, V. C., 2012. Business Intelligence and Analytics : from
Big Data to Big Impact. MIS Quarterly, 36(4), pp. 1165-1188.
Crews, J. D., 2013. Harry Potter and the intentional change - A strategic analysis of
intentional culture at Hogwarts. Organization Development Journal, pp. 17-22.
Darren, P., 2012. Why Big Data is note a Death Sentence for Data Warehousing. Database
Trends and Applications, Decembre, p. 28.
Darvish, H. & Alhouei Nazari, E., 2013. Organizationnal Learning Culture - The missing link
between innovative culture and innovations (Case study: Saderat Bank of Iran). Economic
Insights - Trends and Challenges, 2(1), pp. 1-16.
database Trends And Applications, 2014. Data Management in the Era of Big Data. DBTA,
03, pp. 15-17.
DBTA, 2012. Big Data opens new frontiers for the reporting and analytics industry. Database
Trends and Applications, Juin, pp. 14-15.
DBTA, 2013. The next Big Data phase : Business Knowledge Expansion. Database Trends
and Applications, 03, pp. 24-25.
Fulgoni, G., 2013. Big Data: Friend of Foe of Digital Advertising? Five Ways Marketerd
Should Use Digital Big Data to Their Advantage. Journal of Advertising Research , 10(2501),
pp. 372-376.
Gailly, F. & Geerts, G. L., 2013. Ontology-Driven Business Rule Specification. Journal of
Information Systems, 27(1), pp. 79-104.
Géczy, P., 2014. Big Data Management: Relational Framework. Global Conference on
Business and Finance Proceedings, 9(2), pp. 129-130.
George, G., Haas, M. & Pentland, A., 2014. Big Data and Management. Academy of
Management Journal, 57(2), pp. 321-326.
59
Gregor, S. & Hevner, A. R., 2013. Positioning and presenting design science research for
maximum impact. MIS Quarterly, 37(2), pp. 337-355.
Grossman, R. & Spiegel, K., 2014. Organizational Models For Big Data And Analytics.
Journal of Organization Design, pp. 20-25.
Grove, A., 2004. Seuls les paranoïaques survivent. s.l.:Village Mondial.
Hansen, D., 2012. Bridging the Big Data Divide with data integration. Database trends and
applications, Septembre, pp. 30-31.
Hevner, A. R., March, S. T., Park, J. & Ram, S., 2004. Design Science in Information
Systems Research. MIS Quarterly, 28(1), pp. 75-105.
Iyengar, S. S., Bastani, F. B., Yen, L. & Moitra, A., 1988. Multilevel Data Structures: Models
and Performance. Transactions on software engineering, 14(6), pp. 858-867.
Jarr, S., 2013. The Big Data Value Continuum. Database Trends and Applications, June, pp.
46-47.
Kappos, A. & Rivard, S., 2008. A three-perspective model of culture, information systems,
and their development and use. MIS Quartely, 32(3), pp. 601-634.
Khatri, V. & Brown, C. V., 2010. Designing Data Governance. Communications of the ACM,
53(1), pp. 148-152.
Kumar, M., 2014. The relatioship of knowledge identification and creation with leadership,
culture and technology. IUP Journal of Knowledge Management, 12(2), pp. 7-37.
Lopez, J. A., 2011. Best Practices for Turning Big Data into Big Insights. Business
Intelligence Journal, 17(4), pp. 17-21.
Martens, D. & Provost, F., 2014. Explaining Data-DrivenDocument Classifications. MIS
Quarterly, 38(13), pp. 73-99.
Martinsons, M. G., Davison, R. M. & Martinsons, V., 2009. How culture influences IT-enabled
Organizational Change and information systems. Communication of the ACM, 53(4), pp.
118-123.
McKendrick, J., 2014. Data Integration in the era of big data : how businesses are leveraging
value from diverses data sources. Database trends and applications, 03, pp. 4-9.
Mohrman, S. A. & Lawler, E. E., 2012. Generating Knowledge that drives change. Academy
of Management, 41(1), pp. 41-51.
Mori, N., Matsumoto, K. & Mizuno, T., 2013. A Model-Driven Development Method for
Management Information Systems. Electronics and Communications in Japan, 96(2), pp. 16-
24.
Muir-Poulle, A., 2014. Petit traité d'impertinence constructive. 1 éd. Grenoble: PUG.
Muratovic, H., 2013. Building competitive advantage of the company based on changing
organizational culture. Economic Review - Journal of Economics and Business, 11(1), pp.
61-76.
60
Piccoli, G., 2012. Information Systems for Managers: Text and Cases. 2nd Edition éd.
s.l.:John Wiley & Sons.
Piccoli, G. & Watson, R. T., 2008. Profit from Customer Data by Identifying Strategic
Opportunities and Adopting the "Born Digital" Approach. MIS Quarterly Executive, 7(3), pp.
113-122.
Pigni, F. & Piccoli, G., 2013. Harvesting External Data: The potential of digital data streams.
MIS Quarterly Executive, 12(1), pp. 143-153.
Purcell, B., 2013. The mergence of "big data" technology and analytics. Journal of
Technology Research, pp. 1-7.
Ries, E., 2012. Lean Start-up. s.l.:Pearson.
Schultz, B., 2013. Big Data in Big Companies. UBM Tech, Octobre.
Tallon, P. P., Ramirez, R. V. & Short, J. E., 2014. The Information Artifact in IT Governance:
Toward a Theory of Information Governance. Journal of Management Information Systems,
30(3), pp. 141-177.
Tallon, P. P., Short, J. E. & Harkins, M. W., 2013. The Evolution of Information Governance
at Intel$. MIS Quarterly Executive, 12(4), pp. 189-198.
Vallejo, B. C., Kreper, R., Nora, H. & Fine, D. J., 2012. Converting Data into Information.
Hospital Topics, 90(1), pp. 11-15.
Vance, A., Elie-Dit-Cosaque, C. & Straub, D. W., 2008. Examining Trust in Information
Technology Artifacts: The effects of system quality and culture. Journal of Management
Information Systems, 24(4), pp. 73-100.
Watson, H. & Marjanovic, O., 2012. Big Data: the fourth data management generation.
Business Intelligence Journal, 18(3), pp. 4-8.
top related