big data - en sciences et industries de l'environnement · points cles´ vers une science...

BIG DATAen Sciences et Industries de l’Environnement

Francois Royer

www.datasio.com

21 mars 2012

FR — Big Data Congress, Paris 2012 — 1/23

Transport terrestre

Transport aerien

Tracabilite

Telemetrie - Argos

Oceanographie

Imagerie satellite

Points cles

Vers une Science ultra-empirique?

Big Data pour la Recherche et l’Industrie : mode d’emploi

Hadoop et les donnees geographiques et temporelles

Points cles

L’ere du ”Data Scientist”L’accumulation exponentielle de donnees transforme la demarche d’analyse

1960E. Wigner, ”The Unreasonable Effectiveness ofMathematics in the Natural Sciences,” Comm. Pure andApplied Mathematics, vol. 13, no. 1, pp. 1–14.

2009A. Halevy, P. Norvig, F. Pereira, ”The UnreasonableEffectiveness of Data,” IEEE Intelligent Systems, vol. 24,no. 2, pp. 8-12.

L’ere du ”Data Scientist”L’accumulation exponentielle de donnees transforme la demarche d’analyse

1960E. Wigner, ”The Unreasonable Effectiveness ofMathematics in the Natural Sciences,” Comm. Pure andApplied Mathematics, vol. 13, no. 1, pp. 1–14.

2009A. Halevy, P. Norvig, F. Pereira, ”The UnreasonableEffectiveness of Data,” IEEE Intelligent Systems, vol. 24,no. 2, pp. 8-12.

“ All models are wrong,but some are useful. ” George Box

Data Scientist= nouveau metier?

Ce qui ne change pasI Le besoin en competences statistiques

(Bayesiennes, frequentistes etc...)I La demarche de questionnement et de critiqueI Les protocoles de collecte de donnees

Ce qui changeI Le stockage et le traitement de donneesI L’interaction entre modelisateurs, ingenieurs

systemes et bases de donnees et ... le client

Points cles

DefinitionI Big Data = gros volume (> 10 TB)

I Imagerie satellite 1-10 GB/jourI Systemes geolocalises (vehicules, personnes) 100

MB/jourI Modeles meteo 100 GB/jourI Simulateurs (traffic routier etc...) 100 GB/run

I Big Data + Big ProcessI Donnees pre-traitees (GPS) Cout d’analyse -I Aggregation, contextualisation Cout d’analyse +I Appels BD Cout d’analyse +++I Calculs en cascade Cout d’analyse +++

Diagnostic Big DataDocteur, ais-je un probleme Big Data?

Oui, si :I Vous avez un reseau d’observation autonome

(capteurs meteo, RFID, GPS, balises Argos,smartphones, telemetres, instruments sursatellites...)

I Vos donnees dependent d’une communauted’utilisateurs ou d’individus instrumentes (etude de lamobilite humaine, ecologie terrestre et marine etc... )

I Votre budget, programme de recherche ou businessplan prevoit de ”mesurer d’abord, traiter ensuite”

I Ces systemes de collecte produisent des flots dedonnees plus vite que vous ne pouvez les traiter

Diagnostic Big DataC’est grave, Docteur?

“ Tout ira bien,je vais vous prescrire du DevOps et des calculsdistribues. ”

Solutions Big Data

Operations

Solutions Big Data

Operations

Solutions Big Data

Operations

DevOps

Solutions Big Data

HierI Noeuds de

stockageperipheriques

I Stockage surplusieurs niveaux”chaud”/”froid”

I Supercalculateurau centre

I Data -> Code

Solutions Big Data

HierI Noeuds de

I Data -> Code

Solutions Big Data

HierI Noeuds de

I Data -> Code

Solutions Big Data

HierI Noeuds de

I Data -> Code

Solutions Big Data

Aujourd’huiI Noeuds de stockage sur meme reseau GBI Materiel milieu de gamme (100 - 1000 CPUs)I Systeme de fichiers distribues (DFS)I Gestion des jobs et donnees par des Master NodesI Code -> Data

Solutions Big Data

Pourquoi Hadoop?I Open source (fondation Apache, ouvert par Yahoo)I Projet en maturation, communaute activeI Parallelisation de taches et donnees robusteI Standard de facto en analyse de donnees massivesI Bonne interoperabilite avec les data warehouse et

BDs existantes (ETL, Hive, Sqoop)I Offres commerciales (support, packaging,

integration: IBM, Cloudera, AWS...)

Solutions Big Data

Pourquoi Hadoop?I Difficile a ”tuner” pour des jobs complexesI Encore confidentiel en France (cf. groupe Hadoop

France sur LinkedIn)I Difficile de formuler certains algorithmes sous forme

map-reduceI Embauche et formation de developpeurs et analystesI Autres alternatives disponibles (BSP, Storm, Disco...)

Solutions Big Data

Map Reduce

Solutions Big Data

Map Reduce HBase

Solutions Big Data

Map Reduce HBase

Solutions Big Data

Map Reduce HBase

Hive Pig

Solutions Big Data

Map Reduce HBase

Hive Pig Mahout

Solutions Big Data

Map Reduce HBase

Hive Pig Mahout

Points cles

Hadoop-xytou Hadoop et les donnees geographiques et temporelles

BesoinI retraitement et fouille de donnees historiques

(geographiques et series temporelles)I Accelerer la decouverte d’anomalies et l’extraction de

valeur ajoutee

ProblematiqueI Donnees tres structurees - solution competitive?I Donnees correlees = pb du traitement independant?I Donnees stockees en fichiers binaires - distribution?I Algorithmes metier a reutiliser - interface Java?

valeur ajoutee

Hadoop-xytTraitement d’images

I Extraction + tiling + renderingI Calculs massivement paralleles = gain de temps +++

Hadoop-xytGeolocalisation de vehicules

Transport terrestre

Transport aerien

Tracabilite

Telemetrie - Argos

Oceanographie

Imagerie satellite

DatasioWe are Data Scientists

Data Mining · Prototypage · Algorithmie ·Detection d’anomalies · Prediction · MachineLearning · Spatial data · Time series

Francois [email protected]

www.datasio.com

big data - en sciences et industries de l'environnement · points cles´ vers une science...

Documents