sommaire - big data paris 2020 - this is big › 2017 › synthese › bigdataparis2017-… ·...

Sommaire

LUNDI 6 MARS 2017 1

SESSION ANIMEE PAR ENGUERAND RENAULT, REDACTEUR EN CHEF MEDIAS ET TECHNOLOGIES, LE FIGARO. 1

DISCOURS D’OUVERTURE 1

Présentation : Big Data, Cloud and IoT: panorama and key figures for the European Market at the horizon of 2020 3

Table ronde : Big Data et cyber sécurité : anticiper et maîtriser les risques 4

Table ronde : Assistants personnels, le nouveau hype : quelle vérité derrière cette techno ? 5

Keynote : La donnée intelligente, au cœur de la transformation digitale de l’entreprise et du changement de modèle économique 7

Keynote : Netflix : how “Stranger Things” can happen with Visual Analytics 7

Retour d’expérience : Optimiser un système de recommandation en ligne avec du transfer learning et deep learning : l’exemple de Voyage Privé 8

XDStore Covéa : faire de la donnée externe un levier pour l’amélioration de la connaissance des clients et des risques 9

Viacom : l’optimisation des campagnes marketing par les données – Toucher le bon public au bon moment 10

Trainline : comment optimiser ses investissements marketing avec la consolidation des données 10

Smart fitness & health apps using crowd-sourced data 11

Auchan Direct 13

SeLoger.com et l’expérience du « cookie vocal » 13

La data au service d’une relation attentionnée au client 14

La mise en place d’un Datalake temps réel : retour sur l’expérience d’Orange Business Services 15

MARDI 7 MARS 17

SESSION ANIMEE PAR ENGUERAND RENAULT, JOURNALISTE ECONOMIQUE 17

Deep Learning and Big Data applied to your business : the key factors to success 17

Utilisation des données par les entreprises et confiance des consommateurs : retour sur une étude BCG menée aux Etats-Unis et en Europe 18

Présentation et débat : GDPR : relever les défis de la nouvelle réglementation européenne sur la protection des données personnelles. Soyez prêts pour mai 2018 ! 18

Table ronde : Le Chief Data Officer : nouvel avantage concurrentiel de votre stratégie ? 21

Futur de la data : comment le Big Data peut aider les modèles économiques traditionnels à rester dans la course 22

Remise des Trophées de l’Innovation Big Data 2017 23

Renault : les Augmented Analytics au service du pilotage financier 23

Instant Payments : déploiement des technologies Big Data chez STET 24

Banco Santander : comment le Big Data révolutionne la gestion du risque 25

Une approche pragmatique du Big Data et de la Data Science pour un impact business sur l’ensemble de la chaîne de valeur assurancielle 25

Vestas Wind Systems : comment l’IoT, le Big Data, l’analytique, la data science ont fait l’un des leaders de l’énergie éolienne mondiale 26

Maîtriser des milliards de données et anticiper les mutations numériques : l’exemple de la Sacem 27

PMU et Big Data : d’une approche mono-projet marketing à une démarche entreprise 28

Le Big Data chez Airbus : le modèle GAIA de synchronisation des vues, de rationalisation de l’analyse et de fabrication des vues de manière collaborative 29

Accélérer la transformation de l’entreprise par la date : l’expérience de Bouygues Télécom 29

1

Big Data Paris 2017

Paris, les 6 et 7 mars 2017

DISCOURS D’OUVERTURE

Guillaume POUPARD, directeur général de l’ANSSI (Agence nationale de la sécurité des systèmes d'information), souligne que les menaces qui pèsent sur la sécurité numérique s’avèrent déstabilisantes dans la mesure où elles peuvent venir de quasiment n’importe où (groupes criminels, mafias). Certaines attaques – toujours discrètes – visent à dérober de l’information, dans une logique d’espionnage économique, et font apparaître leurs effets parfois deux ou trois ans après l’attaque initiale. L’ANSSI est appelée à traiter plusieurs dizaines de cas par an, avec des conséquences potentielles pour la sécurité nationale. D’autres attaques prennent plutôt la forme d’actes de sabotage et visent à perturber le fonctionnement des systèmes d'information dans des domaines d’importance vitale (transports, finance, énergie, etc.).

Si les menaces sont fortes, la manière de les contrer demeure relativement simple. De nombreuses solutions sont d'ailleurs assez peu coûteuses, ce qui souligne le fait qu’il s’agit davantage d’un problème de volonté et de compréhension des enjeux. C’est une doctrine de sécurisation qui est imposée par exemple aux acteurs d’importance vitale, autour de quatre volets dont certains ne sont pas techniques. Trop souvent en effet, au sein des entreprises victimes, le COMEX, volontairement ou non tenu à l’écart, découvre ces enjeux lorsqu’il est trop tard. Il est essentiel que le plus haut niveau des entreprises se préoccupe de ces risques, qui n’incombent pas seulement au RSSI.

Une autre dimension de cette doctrine a trait à l’humain : il est crucial de sensibiliser les effectifs au niveau pertinent en expliquant quels sont les gestes élémentaires (parfois qualifiés « d’hygiène informatique ») afin de ne pas exposer les systèmes à des risques aisément évitables.

D’autres aspects sont de nature technique. Les systèmes d'information doivent être conçus, dans leur architecture même, pour résister à d’éventuelles attaques. Les nouveaux systèmes doivent être pensés en incluant une dimension d’analyse de risque de façon à bâtir des systèmes aussi robustes que possible. Il n’existe pas de sécurité à 100 %, souligne Guillaume POUPARD, mais il faut être en mesure de détecter au plus vite les attaques. Celles-ci, même très violentes, ne sont jamais instantanées et sont toujours précédées de phases d’intrusion, ce qui permet de détecter, moyennant quelques efforts, une grande majorité d’entre elles.

Pour mettre en œuvre une telle doctrine, plusieurs guides ont été élaborés par l’ANSSI en fonction des besoins des utilisateurs, des gestes élémentaires jusqu'aux éléments les plus techniques. Une démarche de qualification consiste aussi, sur la base d’un référentiel public, à identifier les prestataires volontaires capables d’apporter un service de sécurité de haut niveau.

Enfin, Guillaume POUPARD met l’accent sur les enjeux de la formation. La sensibilisation aux questions de sécurité numérique devient primordiale afin que les systèmes soient bien conçus dès le départ.

2

Big Data Paris 2017


En tout état de cause, la transformation numérique ne se fera pas sans prise en compte de la sécurité numérique. Trop longtemps opposés, ces deux aspects doivent aujourd'hui être envisagés de concert.

Interrogé par un participant quant à la maturité du marché au regard des enjeux de sécurité numérique, Guillaume POUPARD rappelle qu’outre la plus grande visibilité des menaces, il existe une pression réglementaire croissante en vue de la sécurité des systèmes d'information et de la protection des données, ce qui tire l’ensemble du marché. Un travail a été initié avec les grands équipementiers pour entrer dans une logique de conception sécurisée et de qualification (l’étape suivante résidant dans l’intégration sécurisée des briques élémentaires des systèmes). De plus en plus, la protection des données et la sécurité numérique soulèvent un enjeu de confiance qui constitue une condition clé pour l’ensemble des acteurs de la transformation numérique.

Un participant souligne aussi les enjeux attachés à la sécurité des données et demande quelle articulation existe par exemple entre l’ANSSI et la CNIL.

Guillaume POUPARD précise qu’il existe des acteurs et des réglementations s’intéressant à la sécurité des données, tandis que d’autres acteurs et réglementations ont pour objet la sécurité des systèmes d'information. La CNIL est une autorité indépendante, ce que n’a pas vocation à être l’ANSSI. Les représentants de ces organismes font en sorte que les dispositifs ne divergent pas.

3

Big Data Paris 2017


Présentation: Big Data, Cloud and IoT: panorama and key figures for the European Market at the horizon of 2020

Gabriella CATTANEO, associate vice president au sein d’IDC European Government Consulting, observe qu’il n’a jamais été possible d’anticiper les tendances appelées à se faire jour, sur le plan économique comme sur le plan politique. Des tendances n’en restent pas moins décelables dans cette incertitude, à commencer par l’augmentation des dépenses liées à l’internet des objets (Intelligence Of Things), la robotique et les systèmes, qui devraient croître de près de 20 % au cours des prochaines années, tandis que les dépenses dans les systèmes d'information traditionnels devraient diminuer.

1,29 trilliard de dollars : telle est la somme qui devrait être investie au plan mondial dans l’Internet des objets d’ici 2020, l’Asie-Pacifique représentant la plus forte part de ces investissements. Selon un sondage réalisé auprès d’utilisateurs de produits IoT, les choses ont radicalement changé de 2007 à 2017, à tel point que l’internet des objets a désormais un impact sur les modèles économiques des entreprises.

Le Cloud est appelé à devenir d’ici deux ans le mode de fourniture préféré pour les Analytics, car les sociétés utilisent de plus en plus les données publiques et privées, ouvrant la voie à des milliers de nouvelles applications.

D’ici 2020, selon les prévisions d’IDc European Government Consulting, 45 % des infrastructures IT des entreprises européennes seront centrées sur le Cloud, ce qui montre bien le rôle central que celui-ci est appelé à jouer.

La conjugaison de ces tendances de fond devrait stimuler la croissance européenne : selon les estimations de la Commission européenne, la contribution du digital, en incluant les impacts directs et indirects, se montait déjà à 300 milliards d'euros en 2016. Plusieurs scénarios peuvent être envisagés à ce stade. Si un scénario moyen permet d’espérer une croissance de 2,5 % à l’échelle de l’Union européenne en 2020, un scénario de croissance forte (4 % du PIB) paraît également envisageable, notamment si les PME adoptent l’innovation digitale plus rapidement et si le partage des données s’accélère dans l’économie du continent.

Nous devons nous projeter vers l’avenir, souligne en guise de conclusion Gabriella CATTANEO. Le cadre général de régulation s’adaptera, comme toujours, mais il incombe à toutes les entreprises de savoir saisir l’innovation pour dégager des avantages compétitifs. « Si ce n’est pas vous qui le faites, cet avantage reviendra à d’autres », prévient-elle.

4

Big Data Paris 2017


Table ronde : Big Data et cyber sécurité : anticiper et maîtriser les risques

Participent à la table ronde :

• Elias BALTASSIS, Director Europe, Data & Analytics, Boston Consulting Group ;

• Yves BIGOT, Directeur général, TV5 Monde ;

• Pierre DELORT, DSI, Auteur "Le Big Data" & Enseignant, Institut Mines Télécom.

La table ronde est animée par Enguérand RENAULT.

Elias BALTASSIS constate qu’à l’exception de quelques sociétés qui ont été attaquées, le Big Data et la cybersécurité ne constituent pas encore, en règle générale, des sujets de direction générale. Les équipes de gouvernance des entreprises doivent s’atteler à une identification des principaux risques les concernant et de leurs impacts potentiels, puis définir un plan de prévention et de lutte éventuelle contre ces menaces.

Une fois la prise de conscience opérée, un audit peut être commandé auprès d’acteurs tels que le BCG, qui a pour tâche d’aider les directions générales à agir en la matière. Elias BALTASSIS croit peu, au passage, à la labellisation, car celle-ci s’attacherait à la protection du risque précédent, alors que les hackers et assaillants ont toujours un temps d’avance. Il signale aussi l’émergence du concept de cyber-résilience sans doute promis à un bel avenir : il ne s’agit pas de chercher à empêcher toutes les attaques mais plutôt d’essayer de répondre à la question suivante : une fois qu’on est attaqué, comment survivre ?

Pierre DELORT considère que plutôt que la cybersécurité, les acteurs économiques doivent gérer un « cyber-risque ». Il existera toujours un maillon faible en termes de sécurité, par exemple un sous-traitant ayant accès à certains systèmes de l’Entreprise. Pour être résiliente, une entreprise doit savoir détecter au plus tôt une tentative d’agression, une agression ou une pénétration dans ses systèmes. Elle doit aussi être en mesure de déclencher une alarme en cas de détection d’une intrusion. C’est l’objet du SOC (Security Operations Center) dont doit se doter toute entreprise.

Yves BIGOT revient quant à lui sur l’attaque subie par TV5 Monde le 8 avril 2015, à l’issue du Conseil d’administration du Groupe. Une conférence de presse avait eu lieu ce jour-là pour lancer la chaîne TV5 Monde Style HD, consacrée à l’art de vivre à la française, en présence du ministre des affaires étrangères Laurent Fabius, qui était à l’origine du projet. Au cours des heures qui ont suivi, Yves BIGOT a appris en quelques secondes que les douze chaînes du Groupe étaient passées à un écran noir et que sur certains sites internet du Groupe apparaissent des messages, lourds de menaces pour diverses institutions françaises, signés par un mystérieux « cyber califat ». Le Groupe est parvenu au cours de la nuit suivante à rétablir un signal commun aux douze chaînes. Il a fallu quelques heures de plus pour que le signal propre à chacune des chaînes soit rétabli et que celles-ci émettent de nouveau leurs programmes. Il est apparu que cette attaque, déclenchée vers 20 heures 40 le 8 avril, avait été préparée de longue date. Le directeur des systèmes d'information, présent sur place au moment de l’attaque en raison du lancement d’une nouvelle chaîne ce jour-là, est parvenu à identifier la machine d’où provenait l’attaque. Il a ainsi pu la déconnecter du réseau, faute de quoi la totalité des systèmes de TV5 Monde aurait été détruite. Une incertitude a ensuite pesé durant des mois quant à la capacité qu’aurait le Groupe à retrouver un fonctionnement satisfaisant. TV5 Monde est finalement revenu à flot mais cette attaque aura présenté un coût de 10 millions d'euros au cours des exercices 2015 et 2016, puis 3 à 4 millions d'euros en 2017 et 20018.

5

Big Data Paris 2017


L’enquête, conduite notamment avec le concours de l’ANSSI, a montré que l’attaque visait bien à détruire TV5 Monde et non à voler des données. Il est également apparu que les attaquants n’étaient pas liés à l’Etat islamique, comme ils ont voulu le faire croire : il s’agit en réalité d’un groupe de hackers russes qui a également fait parler de lui à l’occasion de l’élection présidentielle américaine. Deux questions restent, à ce stade, en suspens : pourquoi TV5 Monde a-t-elle été visée, d’une part et qui était le donneur d’ordres d’autre part ?

Elias BALTASSIS souligne que les démarches d’évaluation des risques ont conduit à identifier, dans certaines très grandes entreprises, un risque de mort possible en cas d’attaque majeure. Aussi faut-il faut parfois rebâtir entièrement un système qui n’a pas été convenablement conçu en termes de sécurité. C’est ce qui peut expliquer le choix de certaines entreprises de développer, parallèlement à leur système ancien, un « shadow IT » au sein duquel certaines activités critiques, telles qu’un projet de recherche, par exemple, peuvent plus aisément être protégées des cyber-risques.

Table ronde : Assistants personnels, le nouveau hype : quelle vérité derrière cette techno ?


Alexandre LEBRUN, Engineering manager, Facebook AI Research ; Emmanuel MOGENET, Directeur, Google Research Europe ;

Emmanuel VIGNON, Cognitive Practice Leader, IBM France. La table ronde est animée par Enguérand RENAULT.

Emmanuel MOGENET explique que le travail de Google sur les assistants personnels vise à introduire la notion de conversation avec l’assistant : celui-ci se souvient qui nous sommes et ce que nous lui avons déjà demandé. C’est dans la compréhension sémantique de questions allant au-delà de requêtes portant sur des données factuelles que l’intelligence artificielle doit apporter une valeur ajoutée supplémentaire.

« Nous sommes à l’année 1997 de l’internet », estime Alexandre LEBRUN : l’internet du dialogue (voix ou texte) en est à ses balbutiements. Au cours du dialogue avec son assistant, il doit être possible d’effectuer des tâches impliquant la construction d’un contexte telles que la réservation des vacances, sans que cela n’empêche de commander une pizza au milieu de la conversation.

Pour IBM, explique Emmanuel VIGNON, l’enjeu est de démocratiser l’expertise en la rendant accessible à tous les utilisateurs de la planète. C’est la raison d’être de Watson, l’assistant personnel d’IBM, développé à partir du constat selon lequel une grande partie de la valeur est cachée dans les processus d’expertise existant au sein des métiers (finance, télécoms énergie). Un conseiller bancaire doit par exemple maîtriser une cinquantaine de produits (dans lesquels interviennent fréquemment des changements de réglementation) tandis qu’il a une centaine de clients en portefeuille. Cette double dimension crée une complexité que l’assistant personnel peut aider à appréhender pour offrir in fine un service plus précis aux utilisateurs finaux.

Si l’expérience utilisateur est manifestement transformée par l’introduction des assistants personnels, Emmanuel VIGNON observe que, dans certains cas, un filtre simple

6

Big Data Paris 2017


peut s’avérer plus efficace qu’un assistant personnel auquel il faudrait transmettre une demande orale qui serait plus longue à énoncer que d’écrire.

Le projet « Facebook M », lui, s’inscrit dans un horizon de long terme (cinq ou dix ans) et consiste à faire apprendre à l’assistant à reproduire des exécutions de tâches d’un bout à l’autre, grâce à un long apprentissage effectué avec des trainers humains, sans intervention de programmes ni de scripts.

Emmanuel VIGNON rappelle aussi qu’IBM a été à l’initiative de la création du consortium éthique sur l’intelligence artificielle auquel se sont joints Google, Facebook, Microsoft et Apple. La démarche repose sur le constat de la nécessité de créer un climat de confiance autour de l’intelligence artificielle, ce qui a plaidé pour l’adoption d’un certain nombre de principes simples et partagés – par exemple le fait que chaque assistant personnel soit créé dans un but précis.

Emmanuel MOGENET se dit convaincu que l’intelligence artificielle et le machine learning auront un effet transformatif sur les sociétés. Il importe que tous les acteurs impliqués aient un dialogue à ce sujet, y compris les acteurs sociaux, représentants des sciences humaines et responsables politiques.

Emmanuel VIGNON signale d'ailleurs qu’IBM a été sollicité par la nouvelle administration américaine en vue de l’adoption de principes autour de l’intelligence artificielle – démarche dont l’horizon n’a pas été annoncé. Une initiative similaire a été lancée en France par Axelle Lemaire avant qu’elle ne quitte son poste de Secrétaire d’Etat chargée du numérique et de l’innovation pour se lancer dans la campagne présidentielle au sein de l’équipe d’un candidat.

Emmanuel VIGNON et Emmanuel MOGENET font part de points de vue convergents pour considérer que la vie privée et le contrôle des données doivent rester à la main de l’utilisateur. Les données appartiennent aux utilisateurs, assure Emmanuel MOGENET, quelle que soit la façon dont elles ont été collectées. Les utilisateurs peuvent d'ailleurs effacer, grâce à un seul bouton, toutes les données que détient Google à leur sujet.

Interrogé par un participant qui souhaite savoir si les technologies d’intelligence artificielle permettront à terme de reproduire l’intelligence humaine ou si elles peuvent déboucher sur un autre type d’intelligence, Emmanuel VIGNON souligne que les humains et les machines ont chacun des capacités phénoménales mais radicalement distinctes. Il ne pense pas être appelé à voir de ses yeux une intelligence artificielle aussi puissante que Jarvis dans Iron Man. La société aura donc le temps d’accompagner ces évolutions.

Emmanuel MOGENET fait part d’un point de vue un peu différent. A ses yeux, l’intelligence artificielle s’apparente à un exosquelette du cerveau, susceptible de décupler les capacités humaines. La distinction entre l’humain et la machine est appelée à s’effacer progressivement, à tel point que la question n’aura sans doute plus d’objet à terme.

Alexandre LEBRUN partage cet avis. Il considère aussi que l’intelligence artificielle est fortement surestimée à l’heure actuelle.

Toujours est-il que la manière d’appréhender le rapport aux machines est en train de changer du tout au tout. Il s’agissait auparavant de programmer un ordinateur, c'est-à-dire lui donner une liste d’instructions détaillées pour lui apprendre à faire des choses. Désormais, il devient possible d’apprendre à l’ordinateur à faire des choses par l’exemple. C’est là une rupture majeure, étant entendu que les machines se montrent, pour l’instant, très lentes dans leur apprentissage.

7

Big Data Paris 2017


Keynote : La donnée intelligente, au cœur de la transformation digitale de l’entreprise et du changement de modèle économique

Marc GENEVOIS, directeur général de SAP France, indique que la quasi-totalité du portefeuille de solutions de SAP est accessible aujourd'hui en Cloud ou selon des modèles hybrides, de la gestion de clientèle jusqu'à la planification en passant par les ressources humaines, les achats et les relations avec les fournisseurs.

SAP, historiquement très présent dans l’industrie, a également investi massivement dès 2011 afin de participer à l’avènement de l’industrie 4.0. L’Entreprise a développé un portefeuille de solutions permettant d’apporter le flux de données des clients jusqu'à la production au sein des usines. SAP a par exemple signé il y a quelques mois un accord mondial avec Bosch, qui souhaite connecter tous les produits qu’il fabrique pour ensuite collecter les données, et a dans le même temps digitalisé ses processus industriels grâce aux plateformes SAP.

Les réseaux sociaux ne sont pas en reste : SAP collecte et analyse les données accessibles sur ces plateformes afin de permettre à ses clients d’en tirer de la valeur. La principale question porte sur la valeur de ces données et sur la façon dont elles peuvent être utilisées dans les processus de l’Entreprise. C’est de ce point de vue que SAP dispose de connaissances et d’un savoir-faire précieux, grâce à la connaissance fine de la chaîne de valeur de ses clients capitalisée au fil des années.

Keynote : Netflix : how “Stranger Things” can happen with Visual Analytics

Rappelant que Netflix compte plus de 93 millions d’abonnés dans 190 pays, Jason FLITTNER, Senior Analytics Engineer, souligne que Netlix investira plus de 6 milliards de dollars en 2017 dans les contenus dédiés à ses abonnés. L’entreprise compte environ 1 400 usagers internes du logiciel Tableau de visualisation de données.

Prenant l’exemple de la technologie Hive (qui permet de rédiger une demande pouvant ensuite être traduite en MapReduce) pour exploiter les données détenues par Netflix, Jason FLITTNER conseille l’option ODBC pour connecter Hive à Tableau, moyennant le recours à un serveur Thrift pour relier ces deux éléments. Hive et Tableau interagissent alors par l’intermédiaire du serveur Thrift.

Comme Hive, Spark permet de saisir une requête en vue d’interagir avec une base de données, à ceci près que Spark n’a pas besoin d’utiliser MapReduce, ce qui en rend l’utilisation plus rapide.

Presto, solution open source proposée par Facebook, est une option additionnelle pour interagir avec la base de données S3 de Netflix. Il s’agit d’un moteur de recherche puissant et rapide, idéal pour tester l’utilisation de plus petits volumes de données. La connexion avec Tableau peut être opérée via ODBC ou un connecteur web.

Tirant les enseignements de ces différentes expériences en vue d’un fonctionnement optimal de Tableau, Jason FLITTNER souligne l’intérêt de la fonctionnalité « Tableau Extract API », qui permet de dissocier l’accès aux données et la création de tableaux réalisés à partir de leur extraction.

8

Big Data Paris 2017


Amazon Redshift, utilisé avec le connecteur Tableau natif, constitue aussi une excellente solution en évitant les problèmes de stabilité parfois rencontrés avec d’autres applications. Il arrive aussi que l’extraction des données s’avère trop complexe, auquel cas l’accès aux données peut se faire en direct, notamment grâce à Redshift.

Interrogé par un participant quant à la façon dont Netflix mesure la joie de ses abonnés (puisque tel est l’un des objectifs cités par Jason FLITTNER dans un horizon de moyen terme), précise que la société s’efforce de faire en sorte que ses contenus soient pertinents au regard des attentes de ses abonnés.

Retour d’expérience : Optimiser un système de recommandation en ligne avec du transfer learning et deep learning : l’exemple de Voyage Privé

Christophe DUONG, data scientist de Voyage Privé, explique en quoi les données peuvent alimenter un moteur de recommandation, dont la fonction est de reproduire un conseil personnalisé tel que celui que pourrait donner un commercial dans un magasin.

Dans le cas de Voyage Privé, deux spécificités entrent en ligne de compte :

• la récurrence de ventes flashs, qui se renouvellent toutes les semaines, avec une importante dimension de saisonnalité ;

• des offres de séjours proposées à un prix relativement élevé, rendant leur achat très ponctuel, voire rare, ce qui réduit le volume de données disponibles sur les clients.

Un workflow a été inventé par la communauté du datamining, permettant de comprendre le contexte des recherches des utilisateurs et de la donnée à traiter. Celle-ci est analysée en vue d’établir un modèle de prévision des ventes et du trafic des utilisateurs. Le modèle va ensuite être testé sur deux groupes d’utilisateurs, l’un auquel on présente les recommandations établies par la machine et l’autre auquel aucune recommandation n’est fournie.

Deux approches peuvent être distinguées pour mettre au point un tel moteur de recommandation. La première donne priorité à la logique collaborative tandis que la seconde se focalise sur un seul utilisateur à la fois en analysant son historique de visite et les ventes afférentes. Plusieurs modèles ont été élaborés selon cette méthode. L’enjeu consiste, sur cette base, à bâtir un « méta-modèle » établissant pour chaque produit un score final correspondant à la probabilité d’achat du produit par le client. Les produits peuvent ensuite être réagencés ou priorisés en fonction de la probabilité d’achat.

Pour ce faire, toutes les données sont analysées et recombinées en fonction des résultats obtenus. Les recommandations, rafraîchies chaque nuit, ont permis une augmentation du chiffre d'affaires de 7 % dans le groupe au sein duquel elles ont été utilisées, par comparaison avec le groupe témoin.

L’étape suivante a consisté à intégrer les images dans le moteur de recommandations. Un frein au développement de cette approche réside dans la capacité de calcul des machines, car il faut une base considérable d’images pour que la machine reconnaisse les éléments qui la composent. Cette difficulté a été contournée en s’appuyant sur des bases de données labellisées accessibles en open source sur internet, notamment la base de données « places » labellisée à travers plus de 200 catégories. Une autre évolution a ensuite consisté à personnaliser l’image d’accroche qui sera proposée à l’utilisateur sur la

9

Big Data Paris 2017


première page du site (en montrant par exemple une image de piscine ou une image de paysage en fonction des préférences qui auront été constatées pour cet utilisateur).

D’une façon générale, Christophe DUONG préconise d’élaborer une solution simple dont on est capable de mesurer les résultats pour ensuite affiner le modèle, et ainsi poursuivre les itérations permettant l’amélioration progressive du modèle.

Interrogé par un participant quant à la mesure de la performance des recommandations, Christophe DUONG précise qu’il existe plusieurs métriques de performance, basées notamment sur l’analyse du modèle de visite de tous les clients ayant visité le site, qu’ils aient acheté ou non. Voyage Privé a réalisé des tests sans les images et commence à évaluer la performance de la recommandation assortie d’images. Il est donc un peu tôt pour se prononcer sur l’apport de cette approche, même si les tests s’avèrent très prometteurs.

XDStore Covéa : faire de la donnée externe un levier pour l’amélioration de la connaissance des clients et des risques

Soumaya BEN HASSINE, data scientist et responsable du projet XDStore au sein de Covéa, souligne que la donnée externe est peu accessible, en raison notamment de l’existence de silos organisationnels et historiques qui existent dans un groupe « ancien » tel que Covéa. Pour simplifier et démocratiser l’usage de la donnée au sein du Groupe, l’idée est née d’une sorte de « magasin de la donnée », le XDStore. Celui-ci constitue un catalogue unique contenant de données traitées, qualifiées, mises à jour et prêtes à l’emploi. L’utilisateur peut, parmi d’autres fonctionnalités, naviguer dans le XDStore, télécharger des jeux de données et consulter le détail d’un jeu de données.

Une autre utilisation du XDStore, tournée plutôt vers les statisticiens et data scientists, peut consister à obtenir la liste de tous les jeux de données externes qu’il peut utiliser pour enrichir son jeu de données, via le « XD Miner ». Celui-ci peut même fournir la liste des variables externes qui peuvent être ajoutées à un modèle afin d’augmenter les performances de celui-ci.

Abordant les aspects technologiques de cette approche, Mathieu DESPRIEE, CTO et co-fondateur de BLUE DME, précise que la solution se fonde sur une analyse systématique et automatique de toutes les données intégrant la plateforme (calcul de distribution, de cardinalité, etc.). Puis est opérée une analyse sémantique en repérant des données géographiques (codes postaux, codes de communes…), des données d’entreprise (codes Sirene) ou des données commerciales. Le graphe des relations entre les jeux de données externes et les jeux de données internes pourra ensuite être élaboré, ce qui va permettre d’identifier les correspondances possibles, auxquelles une heuristique d’élimination est ensuite appliquée.

Au quotidien, un data scientist s’efforce de construire des fonctions à partir de données clients (âge, département, etc.) afin d’entraîner la machine à déterminer si un client sera acheteur de telle ou telle offre, à partir d’une ou plusieurs variables. La technologie de matching permet de rapatrier de nouvelles informations depuis des jeux de données externes afin de comparer un grand nombre de modèles et déterminer en quoi ces données exogènes peuvent rendre le modèle de prédiction plus performant. La solution est basée sur une brique technologique issue de la R&D de BlueDME, assortie à Spark et à des fonctions d’indexation avancées fournies notamment par Elastic Search.

10

Big Data Paris 2017


Le projet est en phase de production et Covéa espère atteindre le nombre de plusieurs centaines d’utilisateurs internes d’ici la fin de l’année.

Viacom : l’optimisation des campagnes marketing par les données – Toucher le bon public au bon moment

Soulignant l’enjeu crucial que représentent désormais les données dans l’industrie du divertissement, qui doit croiser de multiples dimensions pour satisfaire ses publics dans un monde changeant et hautement concurrentiel, Fabio LUZZI, VP Data Science de Viacom (Paramount Pictures, MTV, Nickelodeon), explique qu’il existe un besoin de décisions mieux informées et simultanément un besoin de plus grande anticipation dans les décisions prises au regard des évolutions du marché.

Forte de ce constat, Viacom a souhaité créer une plateforme accessible en libre-service par ses équipes, basée sur le Cloud et sur des données analytiques avancées, afin de toucher le bon public au bon moment. Une représentation visuelle tirée de cette plateforme permet par exemple de visualiser de manière simple, minute par minute, l’évolution de l’audience présente devant la télé, et de montrer comment le public se déplace, par grappes, d’une chaîne à une autre.

Caroline EPSTEIN, senior data scientist chez Viacom, décrit un autre exemple de représentation visuelle obtenu à partir d’un script Python qui analyse des millions de données, pour finalement relier les programmes télé par affinité, ce qui met au jour des points communs entre les audiences de différents programmes en vue, par exemple, de segmentations marketing dans la communication de Viacom. Des codes couleur peuvent distinguer, parmi toute l’information produite, certaines caractéristiques intéressant particulièrement l’Entreprise, celle-ci pouvant aussi faire le choix d’exploiter des informations « de niche » qui n’auraient pu être mises en évidence sans un outil aussi puissant, passant en revue des milliards de données.

Trainline : comment optimiser ses investissements marketing avec la consolidation des données

Cédric RAUD, Lead Developer Marketing de Trainline (ex-Capitaine Train), revient sur l’expérience de mise en place d’une structure « data » au sein de Trainline, distributeur indépendant qui se donne pour objectif de proposer une solution alternative pour la vente de billets de train dans 24 pays d’Europe avec une seule interface. Un tel dispositif suppose d’exploiter les données de multiples opérateurs, dont le nombre est par exemple de neuf en France (SNCF, Ouigo, TGV Lyria, etc.).

Lancée en 2015, la première initiative « data » de Capitaine Train consistait à analyser toutes les données dont disposait l’Entreprise, en s’appuyant sur un data scientist et deux développeurs. La plupart des projets consistait à extraire les données intéressantes pour les analyser et si possible en tirer des prédictions de grandes tendances afin d’anticiper les flux de voyageurs. En réalité, avec une si petite structure, l’extraction de temps s’est avérée extrêmement chronophage. De plus, si les analyses étaient fiables, chaque analyse

11

Big Data Paris 2017


dépendait de la source utilisée, ce qui rendait les analyses peu réutilisables et a augmenté le temps requis par les analyses, au détriment de la prédiction.

Le département marketing souhaitant principalement mettre en valeur l’offre de l’Entreprise en vue de l’acquisition de nouveaux clients, il utilisait différents outils tels que les bannières de Google, les réseaux sociaux, les réseaux d’affiliation et la communication. La cellule Data s'est donné pour objectif de soutenir les initiatives lancées sur chacun de ces canaux, ce qui supposait de collecter des données de sources différentes pour chacun d’eux. Cette approche prenait beaucoup de temps, ce qui a fait émerger la volonté d’automatisation de l’exploitation des données.

Différentes solutions (création de pipelines pouvant générer des reporting automatisés, outils de data science, etc.) ont été passées au crible des besoins de Capitaine Train. Les solutions de reporting se sont avérées coûteuses. Elles présentaient aussi l’inconvénient d’être génériques, avec le risque de limiter les analyses possibles. Le développement ad hoc de pipelines de données entrait en contradiction avec l’objectif visant à rendre autonome le data scientist de l’Entreprise. C'est la raison pour laquelle celle-ci s’est penchée sur les solutions de data sciences, en particulier Dataiku, solution française qui présentait le grand intérêt de pouvoir s’intégrer dans l’infrastructure de Capitaine Train (devenu peu après Trainline), avec d’importants gains de temps à la clé.

Le premier usage de cette solution a eu pour objectif d’accélérer le processus d’analyse de l’efficacité des campagnes marketing. Il a fallu consolider les données pour rendre leur extraction facile et rapide, tant pour les données d’activité (nombre de billets de train, utilisateurs, etc.) que pour les données « métier ». La base offre aujourd'hui une vue unique du parcours du client et a été complétée par un outil de visualisation permettant à quiconque dans l’Entreprise de tirer parti de la richesse de la base.

Smart fitness & health apps using crowd-sourced data

Chul LEE, Head of Data Engineering & Science de la division « Connected Fitness » chez Under Armour, souhaite partager certains des enseignements tirés par la marque américaine dans le développement d’applications Big Data.

Outre des vêtements et chaussures connectés ainsi que des applications (en particulier MyFitnessPal) dont la marque a fait l’acquisition ces dernières années, Under Armour a lancé des appareils de tracking et de suivi de l’activité physique (smart gears).

La marque compte 195 millions d’usagers dans le monde, lui assurant un volume considérable de données de fitness (par exemple 120 millions de données sur l’alimentation et 700 millions de données sur la culture physique). L’objectif consiste à créer de la valeur à partir de ces données, pour l’Entreprise et pour ses clients.

L’application MyFitnessPal permet à l’utilisateur de tenir un « journal de bord » en saisissant notamment tous les aliments qu’il consomme. Si cette fonction est déjà assez avancée, elle a été récemment enrichie en l’étendant aux restaurants, ce qui a supposé de saisir des millions de données correspondant à la traduction nutritionnelle de centaines de milliers de menus et de plats couramment servis. Les données recueillies permettent aussi, à partir des données transmises par les coureurs, de visualiser tous les parcours empruntés par les joggers dans Central Park.

Une autre application, Fitness Insights, indique par exemple à l’usager quand dormir, quand se restaurer et quels sont les moments les plus propices pour faire de l’exercice. L’application envoie ainsi des rappels et notifications qui permettent aux usagers

12

Big Data Paris 2017


d’optimiser leur durée de sommeil, même s’il ne fait pas de doute, convient Chul LEE, que les outils de traçabilité du sommeil vont certainement d’affiner ce type d’application.

13

Big Data Paris 2017


Auchan Direct

Marc ROUSSEAU, responsable de la Data chez Auchan Direct, explique que cette dernière est la filiale du groupe Auchan travaillant dans la livraison à domicile des courses du quotidien, à raison d’une livraison en Ile-de-France en moyenne toutes les vingt secondes. L’Entreprise connaît une transformation importante, dont témoigne la création en 2016 d’un entrepôt permettant la préparation automatisée des commandes des clients, ce qui constitue une première dans le secteur du e-commerce alimentaire.

Se donnant pour mission d’éclairer les collaborateurs pour améliorer l’expérience client, Auchan Direct a souhaité miser sur l’exploitation des Data, en s’attachant d'abord à démystifier la Data à l’intention de son public, composé d’experts internes appelés à prendre des décisions sur la base d’informations.

Une recherche conduite à l’université de Duke aux Etats-Unis a interrogé les directeurs financiers d’un grand nombre d’entreprises américaines en leur demandant des prédictions quant à l’évolution de l’indice boursier américain S&P. Les chercheurs ont recueilli 11 600 prévisions d’experts et ont étudié leur corrélation avec la réalité, qui s’est avérée quasiment nulle. Les chercheurs ont nettement démontré notre excès de confiance dans nos prévisions, à tel point que l’hypothèse selon laquelle nos décisions seraient prises de manière très rationnelle paraît fragilisée. Les analyses du prix Nobel Daniel Kahneman, qui a distingué deux types de modes de fonctionnement du cerveau, une pensée intuitive (correspondant au système des raccourcis cognitifs) et une pensée rationnelle (impliquant de prendre du recul sur les faits à prendre en considération en vue d’une décision), vont dans le même sens.

Auchan Direct a débuté son travail sur les Big Data début 2016 avec une base de données reposant sur six tables orientées client et un requêteur SQL. Le dispositif était conçu pour l’Homo economicus parfaitement rationnel mais a donné peu de résultats. L’Entreprise a ensuite enrichi son dispositif d’un outil de Dataviz Qlik Sense, en replaçant le Dataware au centre de l’architecture du dispositif. Si le monde du Dataware peut être envisagé comme une bibliothèque aux rayonnages infinis, le Big Data s’apparente davantage à un immense grenier où les données ne sont pas rangées, et où les technologies idoines sont indispensables pour s’y retrouver.

Daniel Kahneman a également montré que le cerveau humain avait un certain nombre de biais cognitifs dont nous sommes victimes tous les jours. Notre cerveau excelle en particulier à construire une histoire cohérente dans laquelle ni la quantité ni la qualité des données n’importe. Pour passer d’une démarche de diagnostic à une démarche d’amélioration sans tomber dans ce type d’écueil, Auchan Direct avait besoin d’une méthodologie très précise. Si le Big Data est nécessaire dans une démarche d’amélioration, il ne peut suffire, souligne Marc ROUSSEAU. Trois piliers sont indispensables pour mettre les collaborateurs en situation de réussir : le Lean, le Dataviz et le Big Data.

SeLoger.com et l’expérience du « cookie vocal »

Romain SAMBARINO, président et fondateur d’Allo-Media, start up fondée en 2011, raconte que travaillant d'abord sur les annuaires téléphoniques, la société qu’il a fondée s'est vite rendu compte que personne ne s’était encore attaché à analyser le contenu des conversations téléphoniques pour en tirer des données exploitables. L’Entreprise a recruté

14

Big Data Paris 2017


des docteurs en reconnaissance automatique de la parole qui ont développé des outils d’analyse de langage afin de rendre les conversations signifiantes. C'est dans cette logique qu’a été créé le « cookie vocal » en septembre 2016.

Marc RUSSO, Corporate Développement de Seloger.com, explique que le site immobilier a lancé en février 2016 un nouveau service, Se Loger Invest, portant sur l’investissement immobilier. Se Loger avait besoin d’une solution simple, efficace et rapide à mettre en œuvre permettant de qualifier les « leads », c'est-à-dire les formulaires remplis par les clients sur le site lorsqu’ils souhaitent être recontactés en vue d’un conseil immobilier.

En quelques jours, une sémantique liée à l’investissement a été définie avec Allo-Media. Il est apparu en cours de production, en janvier dernier, que certains appels ne recevaient pas de réponse, créant le besoin de création d’un « répondeur intelligent ». En trois semaines environ, la solution du cookie vocal proposée par Allo-Media, a vu le jour, permettant au site de ne plus perdre d’appel. La technologie du cookie vocal fonctionne et convient bien à Se Loger, qui dispose ainsi d’une remontée d’informations efficace. La conversation des conseillers est écoutée mais ceux-ci y voient une aide pour la remontée d’informations clés. L’outil leur évite, en outre, une saisie des données à remonter puisque cette saisie s’effectue automatiquement.

Interrogé par un participant sur la capacité éventuelle du dispositif à remonter les émotions de clients qui apparaîtraient dans les conversations au téléphone (par exemple si un client est irrité), Romain SAMBARINO confirme que ce type de saisie a débuté. L’accent a d'abord été mis sur la sémantique et la signification des mots mais d’ores et déjà, la tonalité du signal est superposée à l’analyse pour les expressions ambiguës. L’étape suivante portera sur la prise en compte des émotions.

A la question de la salle visant à savoir si l’on peut imaginer l’utilisation de ces technologies par un assureur ou un banquier en vue du recueil de données exploitables, Romain SAMBARINO précise que la solution d’Allo-Media, qui se situe en amont du signal téléphonique, peut effectivement être mise à profit dans une boutique, par exemple, d’autant plus qu’un conseiller perd souvent la richesse d’une conversation faute d’avoir le temps de prendre des notes, ce que fait l’outil, d’une certaine manière, de manière automatique.

La data au service d’une relation attentionnée au client

Gauthier LE MASNE de CHERMONT, Chief Customer Data Officer, souligne que la stratégie Data, au sein d’Air France, se veut au service du client. Si la personnalisation client et l’utilisation du Big Data sont devenues la norme, le secteur aérien ne fait pas exception et les plus grandes compagnies ont déjà pris ce virage, d’autant plus que les clients attendent comme un acquis une expérience personnalisée tirant profit de la Data.

Pour Air France, la promesse client est celle d’une expérience de rêve et les clients s’attendent à être pris en charge de bout en bout. La Data est dans l’ADN de la compagnie. En témoigne son expérience déjà relativement ancienne d’une démarche de Revenue Management lancée en 2011, qui a permis une grande finesse dans la définition de la distribution tarifaire au sein des avions. Air France met aujourd'hui cette expérience au service de la relation client avec une ambition claire : être le leader de la relation attentionnée, ce qui suppose de savoir répondre de façon personnalisée aux attentes des clients, en tenant compte par exemple des habitudes de voyage de chacun.

Une première étape implique de reconnaître les clients de la Compagnie, même s’il ne s’agit pas de clients fidélisés. Une plateforme Big Data a été construite de façon à fournir

15

Big Data Paris 2017


cette vision « 360 degrés » à l’Entreprise, de manière contextualisée, en temps réel, pour l’ensemble des points de contact (dans les aéroports mais aussi dans les salons et à bord des avions). La Compagnie a distribué 5 000 tablettes à ses équipes au sol et est en train de faire de même avec ses équipes en vol afin qu’elles disposent d’informations sur les clients qui se trouvent face à elles.

Une application de ce « changement de paradigme » a consisté à développer les recommandations personnalisées. Des moteurs de recommandations ont ainsi été construits autour de prédictions de la prochaine destination à laquelle le client pourrait être sensible. Cet outil s’avère efficace puisque les taux de réservation faisant suite à ces campagnes d’e-mailing ont dépassé de 5 % ceux constatés pour les campagnes classiques.

Un autre exemple est celui du suivi des aléas, question sensible pour toute compagnie aérienne puisque près de 30 % des clients, globalement, sont soumis à un aléa (bagage égaré, changement de porte, grève des contrôleurs aériens…) qui est toujours une source de stress. L’objectif est d’aller de plus en plus vers une gestion proactive des aléas déclenchant de manière anticipée un certain nombre de décisions permettant de réduire leurs conséquences.

La mise en place d’un Datalake temps réel : retour sur l’expérience d’Orange Business Services

Laurent HERR, Vice-President Operations Support Ssytem au sein d’Orange Business Services, revient sur l’expérience de mise en place d’un Datalake « temps réel » au sein de l’opérateur, qui visait d'abord à accélérer la résolution des incidents survenus chez les clients. Les techniciens devaient ainsi avoir une visibilité sur l’état des réseaux des sociétés clientes. L’objectif était aussi de remonter le temps pour savoir ce qui s’était produit avant l’incident (parfois même quelques semaines ou quelques mois auparavant). OBS souhaitait enfin rendre cet outil accessible aux clients, via le web, afin qu’ils puissent eux-mêmes disposer d’un certain nombre d’informations sur les incidents qu’ils ont eu à connaître.

La première étape consiste à collecter en temps réel le statut des équipements réseau, informations de petite taille mais très nombreuses qui alimentent le Data Lake. Pour faire parler ces informations, parfois difficilement interprétables, à l’intention des techniciens, des indicateurs métier (par exemple des taux de disponibilité ou les taux de respect d’un engagement contractuel) ont été élaborés, avec l’objectif de les rendre disponibles à tout instant, sur n’importe quelle période de temps et dans n’importe quelle configuration. Environ 2 millions d’indicateurs sont ainsi collectés chaque minute, soit 80 To compressés, avec près de 30 milliards de lectures par jour sur l’ensemble du Datalake.

Un choix technique structurant majeur a consisté à se baser sur une solution Cassandra plutôt que Hadoop, en utilisant du matériel banalisé. Pour la base graphe, Orange a débuté avec un outil Neo4J, choix ensuite réorienté vers OrientDB en raison du modèle particulier de licence de Neo4J, qui n’était plus adapté. L’Entreprise a également mis en place un catalogue de KPI qui s’est avéré très précieux en termes d’agilité et de time to market.

Orange Business Services se félicite aujourd'hui du choix de Cassandra, particulièrement adaptée aux exigences du temps réel. Cette solution s’avère également très robuste et résistante à divers types de pannes. Elle permet une montée en compétence plus simple pour les développeurs et exploitants. Laurent HERR souligne

16

Big Data Paris 2017


néanmoins le caractère critique de la modélisation, car il existe un risque de vieillissement accéléré du cluster. Il faut également signaler que certains composants indispensables ne sont pas accessibles en open source.

Pour autant, Cassandra ne fait pas tout et Orange a décidé l’extension de son dispositif à Hadoop, Gluster, Spark et NiFi afin de couvrir tous les types de cas d’usage. Il en existe une quinzaine aujourd'hui et Laurent HERR propose un zoom sur l’un d’eux, la détection des comportements sortant de l’ordinaire. Si la courbe d’activité connaît généralement une bosse en milieu de matinée et en milieu d’après-midi, il arrive parfois que cette courbe prenne une forme atypique et que le pic d’après-midi, par exemple, ne se dessine pas. Orange Business Services peut alors essayer d’anticiper les difficultés avant même d’avoir basculé dans une logique de crise, ce qui génère à la fois une diminution d’impact financier (avec un gain estimé à 300 k€ par an) et un effet « waouh » chez le client en termes de satisfaction vis-à-vis de l’opérateur.

17

Big Data Paris 2017


Deep Learning and Big Data applied to your business : the key factors to success

Luming WANG, chef du Deep Learning chez Uber (qui a réalisé un milliard de courses entre sa création et décembre 2015, volume appelé à doubler d’ici juin 2017), voit dans le Big Data un gisement de potentialités qui peuvent se matérialiser par la mise en évidence de modèles cachés (du point de vue du fonctionnement des clients), la détection précoce de tendances du marché, des améliorations de la performance des organisations ou encore l’acquisition d’un avantage concurrentiel.

Pour autant, le Big Data charrie son lot d’écueils à éviter, à commencer par l’insuffisante qualité des données, dont la vérification mobilise de plus en plus de ressources. Une autre difficulté a trait à la protection des données personnelles. Chez Uber, il faut par exemple mettre en contact les chauffeurs et les clients afin que chacun connaisse la meilleure expérience possible. Cela suppose de faire « matcher » les données. Outre de solides plateformes de traitement (Spark, Hadoop, etc.), la connaissance fine du domaine d’activité considéré n’est pas la moins importante des conditions à réunir, même s’il s’agit plutôt d’un coût en termes de ressources humaines.

Le Big Data doit permettre de s’inscrire dans un cercle vertueux. Une fois le problème identifié, vous pouvez préparer les données et établir un modèle de données, puis tester une solution auprès d’un petit groupe de clients avant d’envisager un déploiement plus étendu de la solution mise au point. Une fois déployée, il faut contrôler les résultats qu’elle permet d’obtenir et continuer d’améliorer, par itération, le modèle.

L’apprentissage machine (machine learning), en matière de Big Data, s’avère un outil plus puissant que les outils de datamining traditionnels. Il enrichit la qualité des données, permet un apprentissage non supervisé et facilite la détection d’anomalies. Le machine learning favorise aussi une meilleure prédiction, par exemple par le recours aux régressions linéaires ou logiques, qui nécessitent une grande puissance de calcul.

Si de nombreuses personnes voient le machine learning comme une « boîte noire », son fonctionnement n’est pas très différent, en réalité, de celui des logiciels traditionnels, à ceci près qu’il n’est pas nécessaire d’écrire chaque ligne de code. Le machine learning utilise les algorithmes afin de formuler automatiquement ce qui peut arriver et établir des prédictions.

Le deep learning peut être vu, dans cet ensemble de technologies, comme un facteur de démultiplication de la puissance du machine learning. Il n’est pas pour autant exempt de limites. Il nécessite en effet un volume considérable de données de « formation » du modèle (ce qu’on appelle des données labellisées), ce qui représente un coût très élevé. Cette période de formation du modèle prend aussi beaucoup de temps, y compris avec les systèmes les plus puissants tels que GPU. La performance du dispositif peut également s’avérer dix à cent fois inférieure, en termes de vitesse, à celle d’un modèle traditionnel de machine learning.

Quant aux applications du deep learning, elles sont diverses (prédiction du Churn, création d’un moteur de recommandations, prédiction des ventes ou encore réalisation d’un modèle de définition des prix). Luming WANG recommande en tout cas de

18

Big Data Paris 2017


« commencer petit », par des questions simples, en s’appuyant sur une plateforme d’intégration de données, qui est indispensable.

Utilisation des données par les entreprises et confiance des consommateurs : retour sur une étude BCG menée aux Etats-Unis et en Europe

Elias BALTASSIS, Directeur Europe Data & Analytics du Boston Consulting Group, souligne une conviction profonde du BCG : la confiance du consommateur va devenir l’avantage concurrentiel ultime du Big Data – tout le reste étant appelé à devenir des commodités.

L’édition 2016 de l’étude réalisée par le BCG, réalisée auprès de 8 300 consommateurs dans six pays (Etats-Unis, France, Royaume-Uni, Allemagne, Italie, Espagne), montre que moins d’un tiers des consommateurs savent que quasiment tous les secteurs d’activité recueillent des données à leur sujet. Lorsqu’on leur demande s’ils prennent des mesures (suppression de l’historique, effacement des cookies, etc.) pour prévenir une utilisation éventuelle de leurs données, le taux de réponses positives passe en-dessous de 10 %.

Si les résultats de l’enquête s’avèrent globalement très stables par rapport à ceux de l’an dernier, ils balaient deux mythes que la presse présente souvent comme bien vivants. En premier lieu, la confidentialité n’est pas morte, puisqu’une majorité de consommateurs se dit encore attachée à cette confidentialité. En second lieu, la confidentialité n’est pas une affaire de génération, puisque huit jeunes sur dix se disent préoccupés par la confidentialité de leurs données.

Le degré de « méfiance » varie aussi selon les secteurs considérés. En France, ce sont les réseaux sociaux, les moteurs de recherche et la banque qui arrivent en tête des secteurs dont les consommateurs se méfient, tandis que le gouvernement est cité troisième position aux Etats-Unis. D’une façon générale, les consommateurs se montrent assez méfiants, à commencer par les Français, qui sont 62 % à considérer que les entreprises ne sont pas honnêtes du point de vue de l’utilisation des données.

Les entreprises, elles, communiquent mal. Là se trouve l’origine de la méfiance. Pour preuve, il existe un écart important entre ce que font vraiment les entreprises et ce que pensent les consommateurs du point de vue de l’utilisation de leurs données par les firmes. D’ores et déjà, aux Etats-Unis, 20 % des consommateurs se plaignent d’une mauvaise utilisation des données les concernant. Elias BALTASSIS se dit convaincu que ce chiffre est appelé à croître fortement au cours des années qui viennent, en raison notamment de la couverture du sujet par la presse et de la caisse de résonance que constituent les réseaux sociaux. Or la mauvaise utilisation des données peut avoir un impact financier significatif, estimé par le BCG à 13 % du chiffre d'affaires dans les cas extrêmes. Outre la communication, le BCG préconise une gouvernance de données plus holistique et plus créative.

Présentation et débat : GDPR : relever les défis de la nouvelle réglementation

19

Big Data Paris 2017


européenne sur la protection des données personnelles. Soyez prêts pour mai 2018 !

Sur le plan de la réglementation, Alain BENSOUSSAN, avocat (Alain Bensoussan Avocats) assure que tout va changer le 25 mai 2018. Pour tous les traitements et pour toutes les données à caractère personnel, les entreprises devront être en conformité avec le règlement général sur la protection des données, (DGPR ou RGPD en français), qui comporte 99 articles, soit un tiers de plus que la directive qui s’appliquait jusqu'à présent.

Alain BENSOUSSAN distingue vingt étapes à franchir sur le chemin de la conformité au RGPD, de la définition d’une politique générale d’informatique et liberté à la certification éventuelle en passant par le définition de la protection des données (par conception et par défaut) et une cartographie légale (qui n’a rien à voir avec la cartographie technique).

Cinq principes clés modifient les règles du jeu :

• la minimisation (interdisant désormais d’utiliser les données à caractère personnel, sauf à démontrer que l’on ne peut faire autrement, auquel cas il faut minimiser l’impact de cette utilisation pour le consommateur) ;

• le consentement sur finalité spécifique (et non globale), la finalité pouvant être la prospection, la mise à disposition d’informations pour des sociétés du groupe, etc. ;

• la protection des données dès la conception (qui introduit une révolution), qui n’est pas la traduction de « protection by design », précise Alain BENSOUSSAN ;

• une protection par défaut ;

• l’accountability, c'est-à-dire la capacité à démontrer que toutes les conditions requises sont effectivement mises en œuvre.

Sophie NERBONNE, directrice de la conformité de la CNIL (Commission Nationale Informatique et Liberté), souligne elle aussi l’importance considérable du RGPD, qui s’articule autour de trois axes :

• le renforcement de la protection du consommateur en matière de contrôle et de maîtrise des données le concernant ;

• la responsabilité (traduction française, dans le règlement lui-même, de la notion d’accountability), qui incombe aux entreprises et à leurs sous-traitants, lesquels se voient également soumis à une série de nouvelles obligations ;

• la nouvelle gouvernance européenne, qui introduit une coopération renforcée des autorités nationales de protection des données, dont les pouvoirs et missions différaient jusqu'à présent.

Ce nouveau règlement, déjà applicable, même s’il entrera en vigueur le 25 mai 2018, s’appliquera à tous, y compris les acteurs étrangers ciblant des résidents européens, ce qui contribuera à rééquilibrer les droits et obligations des acteurs à une échelle large.

Le règlement comporte trois grands types d’exigences qui se rapportent à :

• l’organisation interne, notamment la désignation de l’expert interne à l’entreprise, dans l’esprit du « correspondant Informatique et Liberté », dont le rôle sera considérablement renforcé, pour les entreprises où cette fonction existait ;

20

Big Data Paris 2017


• aux méthodes de vérification de la conformité des traitements, qui doivent passer par des outils tels que l’analyse d’impact, comportant nécessairement une dimension technique et une dimension juridique ;

• la gestion des plaintes et incidents, ce qui implique une journalisation des évènements de sécurité, la gestion de violations éventuelles des données et la gestion des réclamations ou demandes d’exercice des droits des personnes.

La CNIL a conscience de la marche à franchir par l’ensemble des acteurs et a mis en ligne sur son site des guides pratiques. Des réponses aux questions les plus fréquemment posées seront également mises en ligne prochainement.

Enguérand RENAULT demande ce qu’il en est des services déjà déclarés auprès de la CNIL.

Sophie NERBONNE précise qu’une analyse d’impact ne sera pas systématiquement nécessaire pour les services déjà déclarés auprès de la CNIL et conformes aux prescriptions de celle-ci. Des études d’impact seront nécessaires dans l’hypothèse où des traitements feraient l’objet d’une modification substantielle. La CNIL a mis en ligne des guides méthodologiques indiquant la façon de procéder pour réaliser ces études d’impact.

Alain BENSOUSSAN souligne que selon son expérience, plus de 50 % des entreprises n’étaient pas en conformité avec la directive 95-46, dont le règlement constitue une sorte d’extension renforcée, en lui donnant des dimensions élargies. Il juge donc d’autant plus important que les directions générales s’emparent du sujet, d’autant plus que les sanctions prévues par le règlement sont très lourdes (jusqu'à 10 ou 20 millions d'euros selon la taille de l’entreprise). Selon son expérience, la CNIL donne une très haute valeur à la posture de l’entreprise, c'est-à-dire la volonté que celle-ci manifeste de vouloir effectivement se mettre en conformité.

Interrogée par un participant quant au plan d'action envisagé par la CNIL vis-à-vis d’acteurs américains de premier plan qui pourraient devenir demain des sous-traitants, au sens du règlement, d’acteurs européens, Sophie NERBONNE convient de la nécessité de veiller à ce que les règles soient appliquées par tous. La CNIL peinait jusqu'à présent à appréhender les grands acteurs mondiaux en raison d’une approche juridique elle-même rendue délicate du fait d’écarts de réglementation. Ce problème ne sera pas entièrement résolu et Sophie NERBONNE convient du besoin d’évoluer vers des standards mondiaux Néanmoins, le règlement sera d’ores et déjà d’application directe si une entreprise cible des ressortissants européens, où qu’elle soit située et qu’elle soit sous-traitante ou responsable. En cas de manquement, la CNIL pourra se rapprocher de la Federal Trade Commission aux Etats-Unis et des autorités de protection des données qui se multiplient dans la sphère asiatique.

21

Big Data Paris 2017


Table ronde : Le Chief Data Officer : nouvel avantage concurrentiel de votre stratégie ?


Benoît BINACHON, managing partner au sein d’Uman Partners ;

Yannick BOLLORÉ, président-directeur général d’Havas ; Emmanuelle PAYAN, Chief Data Officer , Société Générale ;

Simon CHIGNARD, Data Editor, Etalab. La table ronde est animée par Enguérand RENAULT.

La fonction de Chief Data Officer est en transformation, souligne Benoît BINACHON, qui constate le caractère extrêmement mouvant et instable de l’environnement de ces métiers. Le Chief Data Officer est censé apporter au COMEX le savoir requis pour apporter à l’entreprise le levier de transformation que constitue la data. Dans les faits, il est souvent placé sous la responsabilité du Chief Digital Officer. Celui-ci, qui s’appuie sur une équipe (data scientists, juriste, etc.) doit détenir une compétence technique ou au moins savoir comprendre celle-ci à un niveau assez fin.

Interrogé par Enguérand RENAULT quant à la façon dont la Data a révolutionné le métier d’Havas, qui se veut désormais une entreprise « Data oriented », Yannick BOLLORÉ indique que Havas travaille notamment à la construction d’algorithmes permettant d’acheter de la publicité en temps réel. C'est une nouvelle population, composée principalement de scientifiques et de mathématiciens, qui intègre ainsi l’Entreprise. Celle-ci ne souhaite pas, néanmoins, perdre son identité : Havas demande aux talents qui la rejoignent de s’intégrer dans un groupe de publicité – laquelle demeure la raison d’être du groupe – où la technologie ne constitue qu’un outil. Yannick BOLLORÉ ne se dit pas à l’aise quant à la nomination éventuelle d’un Chief Data Officer dans la mesure où ce même intitulé recouvre des réalités assez diverses.

Emmanuelle PAYAN, Chief Data Officer de Société Générale depuis 2015, indique avoir une longue expérience dans la banque et le conseil. Elle a rejoint Société Générale en 2010, où elle s’est d'abord attelée à la transformation des infrastructures informatiques du groupe bancaire. Emmanuelle PAYAN, qui ne fait pas partie du COMEX de Société Générale, souligne que celle-ci s’appuie sur un réseau de Chief Data Officers situés près des métiers, dans une logique très décentralisée. Le sujet est néanmoins suivi de près par le COMEX, qui l’inscrit régulièrement à l’ordre du jour de ses réunions.

Rappelant le rôle d’Etalab, service du Premier ministre initialement tourné vers l’ouverture des données, Simon CHIGNARD observe que la France a été l’un des premiers pays à doter son gouvernement d’une fonction de Chief Data Officer, appelée « administrateur général des données de l’Etat français ». Il existe d’autres usages que la création de référentiels et la statistique publique. La mission Etalab travaille ainsi sur plusieurs leviers de transformation de l’action publique par l’intermédiaire des données :

• la dimension d’autorité : l’administrateur général des données peut être saisi de tout problème de diffusion ou d’accès à la donnée publique ;

• la science des données mise au service de politiques publiques (par exemple l’analyse de la consommation énergétique des bâtiments afin de permettre à l’Etat de mieux acheter son énergie) ;

22

Big Data Paris 2017


• les compétences : des défis (souvent liés aux données) ont été proposés par différents établissements dépendant de l’Etat et relevés par des « intrapreneurs » (souvent motivés par la contribution à l’intérêt général) venus ponctuellement au sein des structures considérées pour une mission de transformation de quelques mois.

Benoît BINACHON confirme enfin la pénurie qui existe du point de vue des Chief Data Officers, ce qui ne semble pas devoir changer à court ni même probablement à moyen terme, en raison notamment du niveau élevé en mathématiques requis dans ces fonctions.

Futur de la data : comment le Big Data peut aider les modèles économiques traditionnels à rester dans la course


Yohan BENQUÉ, Chief Marketing Innovation Officer, Altares ;

Lionel REBIERE, Directeur Exploitation, EMEA, Otis ; Stéphane MADOEUF, Professeur affilié, HEC Paris.

La table ronde est animée par Enguérand RENAULT.

Yohan BENQUE indique avoir été persuadé, il y a trois ans, que la data allait devenir le « smart data ». L’ensemble des modèles de data vont impacter les entreprises, que celles-ci soient traditionnelles ou digitales. La seule question qui se pose encore consiste à savoir si une entreprise saura elle-même se transformer ou si elle subira cette transformation du fait d’un changement de son modèle.

Altares, société forte de 150 ans d’histoire, a constitué une équipe d’experts en sciences de la donnée à partir de la volonté de valoriser le patrimoine de données de ses clients en répondant à leurs enjeux de performance et de valorisation.

Stéphane MADOEUF poursuit en indiquant qu’HEC collabore depuis trois ans avec Altares et a décidé de tester différents sujets autour de la data, en mode « Hackathon », avec le concours des étudiants auxquels il est demandé de se projeter (selon le principe du Moonshot) dans un horizon de trente ou cinquante ans afin de résoudre un problème majeur en s’appuyant sur des technologies innovantes. Plusieurs partenariats ont été noués avec d’autres écoles (Ecole Normale Supérieure, Ecole 42, écoles de modélisation 3D…) afin de compléter les compétences des 17 équipes projets qu’il s’agissait de constituer, sous la supervision de cinq coachs.

Après une phase importante de prospective et de « design thinking », différentes approches ont été testées en mode agile afin d’inventer les modèles économiques de demain. Cinq équipes victorieuses (une par sponsor de la démarche) ont finalement été désignées, avec des projets tels que la création de capteurs permettant de savoir quel type de panneaux solaires installer sur les toits ou la création d’un casque permettant de partager ses rêves.

Altares a notamment mis à la disposition d’HEC des data scientists, des chefs de projet, des algorithmes et un jeu de données permettant aux étudiants d’y puiser des données. L’objectif consistait à identifier un modèle de dataviz correspondant à des usages métier communs (optimisation financière, ciblage marketing, limitation du churn).

Rappelant que l’ascenseur est aujourd'hui le moyen de transport le plus utilisé dans le monde, Lionel REBIERE souligne qu’Otis a la volonté de placer le client au cœur de

23

Big Data Paris 2017


l’entreprise par l’intermédiaire des données, ce qui se traduit par différents types de projets (transmission de données aux techniciens pour l’amélioration de leur efficacité, élaboration d’un outil qui permettra aux usagers de disposer d’informations en temps réel, etc.). Lionel REBIERE souligne au passage que la donnée n’est rien si elle n’est pas retranscrite dans un outil de visualisation. Celui-ci doit permettre de la rendre intelligible de façon simple par différents acteurs de l’entreprise.

Un projet lancé il y a quelques mois par Otis, avec l’aide de compétences externes pour la consolidation et l’intégration des données, a par exemple consisté à utiliser les enquêtes de satisfaction des clients et les données de visite sur le terrain afin de mieux ajuster les propositions commerciales de l’Entreprise. Les premiers résultats s’avèrent déjà très encourageants, notamment en termes de satisfaction clients, car ceux-ci perçoivent le changement impulsé dans la manière de travailler de l’Entreprise et dans ses relations commerciales.

Remise des Trophées de l’Innovation Big Data 2017

Antoine CROCHET-DAMAIS, du Journal du Net, souligne l’excellente qualité des dossiers soumis au jury des Trophées de l’Innovation à l’occasion de ce Big Data 2017, qui compte un nombre de dossiers comparable (45). Les secteurs d’activité sont très divers, avec un poids important du Retail, du secteur financier et de la santé. Deux tendances se dégagent cette année : l’émergence du thème de la cybersécurité d’une part et un plus grand nombre de projets tournés vers le traitement des données d’autre part.

Après délibération du jury et le vote des participants (suite à des « battles » au cours desquelles les finalistes ont pu défendre leur projet) :

Le Prix de l’Innovation BtoB est attribué à Covéa et Blue DME.

Le Prix de l’Innovation BtoC est attribué à TellMePlus. Le Prix de l’Innovation Start Up est attribué à Zelros.

Le prix Coup de cœur du jury est décerné à Sopra Steria pour son projet « plateforme Big Data CLS » de traitement de données satellitaires géolocalisées.

Renault : les Augmented Analytics au service du pilotage financier

Jean-Christophe LABARRE, Directeur Innovation et Partenariats de RCI Bank & Services, indique que RCI Bank est la financière de l’alliance Renault-Nissan. Présente dans une trentaine de pays, l’Entreprise a la volonté de déterminer comment elle pourrait introduire des processus de rupture sur de nombreux sujets à court, moyen et long terme.

« Next », initiative de la Direction financière de Renault, a pour objectif d’identifier de nouvelles façons de faire pour des fonctions de la Direction financière. RCI Bank a souhaité traiter différemment les reporting dédiés au pilotage du Groupe. Plutôt que de lancer un appel d'offres, l’Entreprise a essayé de réaliser un POC (Proove of Concept) de manière très rapide (sept semaines). Le calendrier et le coût de la démarche ont été tenus, à la suite de quoi la première partie de l’année 2016 a été consacrée à l’industrialisation de cette approche. Entre temps, Advanced avait muri sa stratégie autour du « No Data » et a proposé à RCI Bank de devenir ambassadeur de sa solution.

24

Big Data Paris 2017


Initiée en septembre 2015, la démarche a eu de nombreuses ramifications que l’Entreprise était loin d’envisager à l’époque. La solution assure aujourd'hui à RCI Bank un avantage concurrentiel pour son pilotage économique. Outre la réconciliation de données, la solution « No Data » proposée par Advanced permet la collaboration et donne du sens aux données, plutôt que de passer du temps à fiabiliser celles-ci. L’outil s’avère aussi réactif, avec un temps de production de la donnée inférieur à la seconde, même pour le traitement de millions de lignes.

Fabrice HAACOUN explique qu’Advanced Schema, dont il est le CEO, est un hyper-spécialiste intervenant principalement dans les domaines du Big Data, de la BI, du datawarehouse et du CRM. Comptant près de 150 consultant, l’Entreprise propose une suite modulaire et intégrée, non intrusive, offrant une gestion globale des données. Advanced est en mesure de réconcilier les données issues de systèmes transactionnels classiques et de bases non transactionnelles (ou non SQL), avec une capacité à gérer de très importants volumes de données. L’outil a été créé de telle sorte qu’il intègre nativement la capacité à opérer selon la méthode Agile, en plaçant le métier au cœur de la démarche. La mise en œuvre se veut itérative, en découpant le projet en lots de trois mois au maximum.

Instant Payments : déploiement des technologies Big Data chez STET

Eric GABILLET, directeur des activités de développement logiciel chez STET, indique que ce dernier est un opérateur de flux interbancaires, relativement peu connu malgré la criticité de sa fonction pour l’économie française.

Classiquement, les banques collectent les ordres de paiement (via leur usine de traitement) et les routent vers des places d’échanges. STET a pour métier de réaliser le clearing (compensation), en traitant les flux et en les routant vers leurs destinataires. Il tient en parallèle les positions entre ces dizaines de millions de flux, ce qui permet de calculer des soldes qui sont déversés en banque centrale. Ce processus permet de transformer la promesse de paiement en un mouvement réel de fonds sur les comptes des banques en banque centrale.

STET, créée en 2004, est aujourd'hui le leader en Europe et traite plus de 90 % des paiements en France. L’Entreprise a traité en 2016 plus de 22 milliards de transactions bancaires, avec des pics quotidiens à 150 millions de paiements.

Confrontée notamment à de nouvelles exigences réglementaires et devant traiter de nouveaux besoins, STET est en train de bâtir une nouvelle solution, Core II, conçue pour accueillir en novembre 2017 les instant payments 2017, d'abord en Belgique, puis en France en 2018.

La digitalisation de l’économie, suscitant l’explosion des usages nomades sur divers supports, favorise une augmentation exponentielle du nombre de transactions, avec pour corollaire une exigence accrue de sécurité, tant pour les consommateurs que pour les entreprises. Imposé par le régulateur (la BCE), l’instant payment a vocation à offrir un substitut à l’utilisation des espèces, ce qui implique un transfert d’argent immédiat, 24 heures sur 24 et sept jours sur sept, dans l’ensemble de la zone SEPA.

L’instant payment introduit un changement de modèle : le processus de compensation est appelé à s’opérer de façon totalement différente puisque le traitement, la compensation et les règlements ont lieu transaction par transaction, de bout en bout en temps réel. Pour réaliser cette transformation, STET va entièrement revoir son architecture en s’appuyant sur une plateforme unifiée (reposant sur trois datacenters) qui supportera l’ensemble des flux existants, traités par un moteur de traitement unitaire en temps réel.

25

Big Data Paris 2017


STET (soumis à des audits stricts) doit conserver un historique de l’ensemble des évènements traités et doit être en mesure de rejouer tout ou partie des flux entrés dans son système. Le système de l’Entreprise doit aussi offrir une disponibilité maximale. L’architecture retenue, répondant au principe d’Event Sourcing/Message Driven, se veut aussi conforme à la logique « Streaming Exactly-Once » (qui implique l’absence de toute perte ou redondance de flux) et offre une résilience multi-active (compte tenu de l’utilisation simultanée de trois datacenters). Concrètement, le dispositif repose sur trois briques principales, Kafka, Spark et Cassandra, cette dernière constituant l’élément primordial de cette nouvelle solution. Outre les avantages de l’open source, Cassandra Data Stax est une base de données distribuée assurant une faible latence en écriture (point faible traditionnel des bases de données relationnelles), ce qui a constitué un aspect critique du projet.

Banco Santander : comment le Big Data révolutionne la gestion du risque

Bertrand KIAN HASSANI, responsable de la gestion de l’innovation en matière de méthodologie au sein de Groupe Santander, présente le nouvel écosystème bancaire : l’arrivée de la PSD2 et de nouveaux entrants tels que les fintech, pour ne citer que ces deux facteurs, imposent aux acteurs traditionnels de s’adapter.

Si la mise en œuvre d’approches de machine learning n’est pas neuve, puisqu’elle a été initiée dès 1920 ou 1930, elle recèle une certaine complexité dans un contexte de déversement de nouveaux flux de données et d’exigences réglementaires élevées. Avant d’aborder les aspects techniques, Bertrand KIAN HASSANI insiste sur le changement culturel induit par le Big Data. A titre d’exemple, la génération de profit, pour une banque, a toujours été indissociablement liée à la notion de risque. Il est demandé aux banques aujourd'hui de passer de ce paradigme basé sur le risque au paradigme de Schumpeter, dans lequel le profit découle avant tout de l’innovation. Dans cette nouvelle logique, dix projets sont lancés pour une ou deux réussites, qui financeront les huit échecs.

Mais le Big Data ouvre aussi des perspectives nouvelles, en permettant par exemple de mettre en parallèle le profil marketing des clients et leur profil de risque afin de créer le produit adéquat. C’est de ce point de vue que l’apport du machine learning est vertigineux : il permet de croiser de gigantesques volumes de données pour créer de nouveaux produits qui intègrent « nativement » la gestion des risques, dans ce que Bertrand KIAN HASSANI appelle une stratégie dynamique et autoalimentée.

Une approche pragmatique du Big Data et de la Data Science pour un impact business sur l’ensemble de la chaîne de valeur assurancielle

Juliette BERGER, directrice informatique, organisation et Big Data au sein d’AXA Global Direct France (entité opérationnelle qui regroupe les sociétés d’assurance directe en IARD dans tous les pays du monde sous la marque Direct Assurance), souligne qu’eu égard aux spécificités d’un produit d’assurance, un enjeu essentiel réside dans la gestion de la relation client et la gestion de ses sinistres tout au long de sa vie. C’est ce qui a

26

Big Data Paris 2017


conduit AXA à faire évoluer son positionnement, passant d’un rôle d’assureur-payeur à un rôle de conseil et de partenaire.

Dans ce nouveau modèle, l’Entreprise mise sur la combinaison de la technologie et du contact humain, chacun pour ce qu’il fait de mieux, au moment le plus opportun de l’expérience client. C’est ce qui rend la donnée essentielle compte tenu de l’aide qu’elle peut apporter pour ce réglage fin. Schématiquement, les compagnies d’assurance sont passées d’un modèle d’usage des chiffres issus de données froides à l’exploitation de données chaudes (centres d’appels, telematics, etc.).

Outre le recrutement de data scientists qui ont permis de constituer une « Data Family », l’Entreprise a mis à disposition de cette communauté interne un Datalake pour des activités de R&D et le développement de projets porteurs de valeur pour l’entreprise.

Après avoir rappelé les qualités requises pour un data scientist (« job le plus sexy du 21ème siècle », dit-il), David PIERSON, lui-même data scientist au sein d’AXA Global Direct France, explique que l’industrialisation de la data science suppose de réunir un certain nombre de conditions, en particulier la qualité des données, l’existence de solutions de stockage ainsi que des sources internes et externes de données.

En termes de projets, le Data Innovation Lab a notamment conçu un algorithme attribuant un score à toutes les demandes de devis reçues, le devis assorti du score le plus élevé étant recontacté en priorité. Une autre application est la détection de la fraude, sur la base de règles métier précises, à travers une interface indiquant, outre un récapitulatif du sinistre, des données clés permettant une première détection de fraudes possibles.

Paul-Hadrien BETBEZE, Data Protection Officer au sein d’AXA Global Direct France, explique que son rôle consiste notamment à expliquer ce qui ne peut être fait au sein de l’Entreprise avec les données. A titre d’exemple, la donnée pourra, en application du nouveau RDPG, être conservée, à condition d’au moins la pseudonymiser, avec l’obligation, dans certains cas, de l’anonymiser. C'est dans le Datalake que cette pseudonymisation et cette anonymisation seront effectuées.

Vestas Wind Systems : comment l’IoT, le Big Data, l’analytique, la data science ont fait l’un des leaders de l’énergie éolienne mondiale

Interrogé par Sadaq BOUTRIF, directeur solutions consulting France et Bénélux de de Tibco Software, Lars Christian CHRISTENSEN, vice-président de Vestas Wind Systems, indique que Vestas a franchi le seuil de 10 milliards d'euros de chiffre d'affaires en 2016 et exploite à ce jour plus de 33 000 éoliennes de par le monde. Pure player de l’éolien, Vestas dispose d’une expérience de quarante ans dans ce secteur.

Plus de 500 signaux sont transmis chaque seconde par les éoliennes, ce à quoi s’ajoutent de multiples données liées aux prévisions météo ou aux prix de l’électricité. C’est en 2011 que l’Entreprise a commencé le stockage systématique des données grâce à de nouvelles solutions de stockage aux capacités accrues. Depuis lors, si le retour sur investissement est difficile à chiffrer, Lars Christian CHRISTENSEN assure qu’il atteint plusieurs centaines de millions d'euros par an. Le « Smart Data Computer » dont s’est doté Vestas en 2016, basé sur une plateforme d’analytique avancé Hadoop, comporte 8 112 cores pour 6 Peta bits de stockage, avec une vitesse de traitement de 100 Giga bits par seconde.

27

Big Data Paris 2017


Sur le plan de la gouvernance, Lars Christian CHRISTENSEN se dit convaincu des vertus de la démocratisation de la connaissance. La plateforme de Vestas est aujourd'hui utilisée par trois principales catégories d’usagers :

• les « data sharks », au nombre de vingt ou trente, qui s’attachent à développer la plateforme « cœur », Spotfire ;

• la « playzone », dont les usagers développent des applications, pour eux-mêmes et pour d’autres usagers internes à l’Entreprise qui ont besoin d’être autonomes vis-à-vis des données ;

• la zone de « libre-service », où des usagers internes viennent ponctuellement piocher des données ou des traitements en fonction de leurs besoins.

Une prochaine étape résidera dans le développement du « Spotfire App Store », c'est-à-dire un ensemble de tableaux de bord analytiques et d’applications « business » accessibles à l’échelle de l’entreprise, qui doit offrir à la fois un moteur de recommandations et constituer une rampe de lancement pour de nouveaux projets.

Maîtriser des milliards de données et anticiper les mutations numériques : l’exemple de la Sacem

Xavier COSTAZ, directeur de projets d’innovation à la Direction des ressources et de la stratégie de la Sacem, souligne qu’outre la défense de ses 157 000 membres auprès des diffuseurs de musique, la Sacem a vocation à collecter et répartir les droits d’auteur. La musique dématérialisée représentant désormais 95 % des données traitées par la Sacem, celle-ci a vu le montant de ses collectes plus que quadrupler en six ans tandis que les volumes de datas analysées connaissaient une croissance exponentielle, en raison notamment d’un volume de téléchargements qui double chaque année.

Dans ce contexte évolutif et afin de disposer des meilleures technologies, la Sacem a décidé de s’associer à IBM. Après quelques POC est née la plateforme Urights qui doit permettre à la Sacem de toujours mieux capteur la valeur associée à la musique en ligne et d’optimiser l’identification des droits, le tout étant hébergé sur le Cloud d’IBM.

Christophe BURGAUD, architecte Big Data chez IBM France, souligne que plusieurs dizaines à plusieurs centaines de Gb viennent chaque jour des Digital Service Providers tels qu’Itunes ou Spotify. Après croisement avec des contrats et identification des droits, le système génère in fine une facturation mais se distingue par la création de capacités nouvelles permettant d’ajouter des services autour de la donnée. Techniquement, un Datalake est matérialisé dans une plateforme Hadoop complétée par une solution Spark afin de « raffiner » les données.

Le Big Data va ainsi offrir à la Sacem une vision exhaustive de l’ensemble de ses données tout au long du processus, en fournissant une vision en temps réel des actions conduites, souligne Xavier COSTAZ. L’Entreprise va aussi pouvoir initier des activités de simulations afin de mieux valoriser son répertoire. Enfin, de nouveaux modèles d’identification vont pouvoir être expérimentés.

Grâce à l’ensemble de ses données et aux nouvelles technologies d’apprentissage de deep learning, la Sacem a lancé un programme de recherche avec l’Ircam (Institut de recherche et de coordination acoustique/musique) qui vise à long terme à se passer des méta-données, en étant en mesure de reconnaître derrière chaque enregistrement (officiel ou non) l’œuvre jouée. La Sacem a commencé à conduire des analyses prédictives avec la

28

Big Data Paris 2017


société QuantMetry sur le parcours d’une œuvre, ce qui va permettre de proposer de nouveaux services aux membres de la Société.

Interrogé par la salle quant à la perception de ce renouveau des services de la Sacem par les auteurs compositeurs, Xavier COSTAZ convient que le changement de stratégie de la Sacem, s’appuyant sur un partenaire technologique tel qu’IBM, n’a pas laissé indifférent le public des auteurs et compositeurs.

PMU et Big Data : d’une approche mono-projet marketing à une démarche entreprise

Arnaud ETEVENARD, Responsable de la division projets – Domaine Client du PMU, indique que celui-ci, numéro deux mondial du pari hippique, a une activité reposant sur deux canaux, ses 12 800 points de vente d’une part, ses trois sites web totalisant 2,7 millions de visiteurs uniques par mois d’autre part.

En restant dans un modèle traditionnel de développement de système d'information (le recours à un forfait pour une solution de type « boîte noire »), le PMU courait le risque d’obtenir une solution rapidement obsolète. C'est la raison pour laquelle l’Entreprise a fait le choix de serveurs banalisés et d’une solution proche de l’open source (Cloudera). Le choix le plus délicat a consisté à passer au mode Agile, impliquant la fourniture de livrables tous les quinze jours.

En août 2016, le PMU est passé dans une deuxième phase, celle du Big Data Lab, qui repose sur trois grandes activités : l’exploration (selon différentes pistes) des données mises à la disposition des équipes, le prototypage (c'est-à-dire le test de solutions sur une échelle restreinte) et l’industrialisation.

Après la mise en place d’un Datalake d’entreprise, l’objectif a consisté à faire de celui-ci un producteur de valeur en sélectionnant, parmi les besoins transmis par les métiers, les projets en fonction d’une approche de type P&L (comparant produits et charges). Ainsi a été établie une liste de projets priorisés connue de tous dans l’Entreprise.

Après avoir changé le mode projet, il fallait changer le mode de delivery au quotidien. La mise en place d’une équipe Agile a permis de faire émerger de nouveaux usages générateurs de valeur. Arnaud ETEVENARD cite l’exemple des bornes de prise de paris, pour lesquelles la problématique était simple : chaque borne générant directement un chiffre d'affaires, il est indispensable qu’elle soit localisée de façon optimale en fonction du potentiel d’activité. Le Big Data a été mis à profit en étudiant les situations de saturation que connaissaient les bornes en Ile-de-France, synonymes d’une limitation des mises malgré un potentiel plus élevé que les paris enregistrés. La démarche a conduit à modifier l’implantation d’un certain nombre de bornes dans la région et a confirmé la marge de progression du chiffre d'affaires qu’ouvrait ainsi le Big Data pour le PMU.

La prochaine étape consistera à disposer d’un parc de bornes et terminaux répartis de manière optimale, en étendant à l’ensemble de la France la démarche lancée à titre expérimental dans l’agglomération parisienne.

29

Big Data Paris 2017


Le Big Data chez Airbus : le modèle GAIA de synchronisation des vues, de rationalisation de l’analyse et de fabrication des vues de manière collaborative

En présence de Keith HAAG, vice-president Sales de Tom Sawyer Software, Hugo FALGAROEN, Research Manager d’Airbus, explique que la construction d’un avion passe toujours par une phase critique de définition de l’architecture. L’architecte doit définir une architecture optimale assurant à la fois une cohérence fonctionnelle et tenant compte de multiples contraintes rendant indispensables des arbitrages. L’approche actuelle reposant sur des milliers de modèles de données stockées en de multiples lieux au sein des bureaux d’étude, l’architecte se trouve confronté à un environnement très hétérogène dans lequel il doit rechercher les données pertinentes pour prendre la décision idoine.

C’est cette approche que le projet Big Data cherche à simplifier, en regroupant les données détenues par les bureaux d’étude afin de construire des visualisations permettant de vérifier de façon beaucoup plus simple la cohérence des spécifications.

GAIA, système multi-vues dédié aux architectes, doit permettre de suivre la définition de l’avion dans sa globalité, en distinguant quatre types de vues :

• les fonctions à remplir et les solutions correspondantes ; • les produits et systèmes retenus ; • les processus et le découpage du travail de conception en « work packages » ; • l’évaluation et la prise de décision.

Airbus s’est appuyé sur la société Tom Sawyer Software, forte d’une importante expérience en systèmes de graphes et de visualisation de données. Il fallait d'abord créer un environnement multi-vues convivial, mais aussi utiliser toutes les données disponibles au sein d’Airbus (en s’affranchissant notamment des problèmes d’hétérogénéité, de format, etc.). Gaia constitue ainsi le résultat d’une collaboration fructueuse entre Airbus et Tom Sawyer Software, projet appelé à se déployer pour des cas pilotes au cours des mois à venir afin d’explorer de nouvelles pistes d’amélioration des avions.

Accélérer la transformation de l’entreprise par la date : l’expérience de Bouygues Télécom

Tout en admettant le rôle central de la technologie au sein d’un opérateur télécoms, Richard EUDES, responsable du Big Data Lab de Bouygues Télécom, propose d’envisager l’Analytics selon un prisme plus large que la technologie, car la data est devenue au sein de l’opérateur une sorte de référentiel commun aux acteurs. Encore faut-il que la donnée soit accessible, partagée et valorisée, ce en quoi l’apport de l’Analytics se révèle déterminant.

Pour faciliter le passage d’idées en actions, un facteur clé a résidé dans la prise de conscience, au niveau stratégique, de l’actif que constitue la data. Un autre facteur clé, dans le processus de déclinaison de la stratégie vers l’opérationnel, a été identifié dans les

30

Big Data Paris 2017


hommes et les femmes de l’Entreprise, eu égard notamment à leur rôle dans les interactions inter-métiers.

C’est à partir de cette prise de conscience globale, impliquant toutes les équipes de l’organisation, qu’a été initié le Big Data Lab en 2015, avec pour mission de rendre possible par l’expérimentation la création de valeur ajoutée pour les clients de Bouygues Télécom.

Une fois diffusée cette conviction stratégique du rôle potentiel de l’Analytics dans la création de valeur, il a fallu vérifier le caractère « data driven » des métiers. Dans cette logique, la data devient un input du processus métier, lequel va lui-même générer des données. Il importe tout autant de rendre le métier « analytics driven », c'est-à-dire vérifier la compatibilité entre les métiers et la data science, condition sine qua non de génération de la valeur par les données.

Transformer ainsi les métiers par l’Analytics peut passer par l’identification de fonctions « data appétentes » au sein des métiers (marketing, opérations, risques, RH…) pour faire naître des synergies entre les métiers et la data science. Une trentaine de projets sont en cours au sein de Bouygues Télécom, animés par cette dynamique de coopération. Ils impliquent une centaine de collaborateurs qui partagent ces valeurs communes. L’un des objectifs est d’optimiser la connaissance et la gouvernance des data par l’organisation, en satisfaisant les enjeux réglementaires dont le poids va croissant (notamment le GDPR) et en vue d’anticiper les attentes des clients.

Document rédigé par la société Ubiqus – Tél. 01.44.14.15.16 – http : >> www.ubiqus.fr – [email protected]

http://www.ubiqus.fr/

mailto:[email protected]

sommaire - big data paris 2020 - this is big › 2017 › synthese › bigdataparis2017-… ·...

Documents