datasio - big data congress paris 2012

86
BIG DATA en Sciences et Industries de l’Environnement Franc ¸ois Royer www.datasio.com 21 mars 2012 FR — Big Data Congress, Paris 2012 — 1/23

Upload: datasio

Post on 26-Dec-2014

1.031 views

Category:

Technology


5 download

DESCRIPTION

These slides were presented at the Big Data Congress held in Paris on March 20-21st 2012. Concepts and uses cases of Big Data in geosciences were presented.

TRANSCRIPT

Page 1: Datasio - Big Data Congress Paris 2012

BIG DATAen Sciences et Industries de l’Environnement

Francois Royer

www.datasio.com

21 mars 2012

FR — Big Data Congress, Paris 2012 — 1/23

Page 2: Datasio - Big Data Congress Paris 2012

Transport terrestre

Transport aerien

Tracabilite

Telemetrie - Argos

Oceanographie

Imagerie satellite

FR — Big Data Congress, Paris 2012 — 2/23

Page 3: Datasio - Big Data Congress Paris 2012

Points cles

Vers une Science ultra-empirique?

Big Data pour la Recherche et l’Industrie : mode d’emploi

Hadoop et les donnees geographiques et temporelles

FR — Big Data Congress, Paris 2012 — 3/23

Page 4: Datasio - Big Data Congress Paris 2012

Points cles

Vers une Science ultra-empirique?

Big Data pour la Recherche et l’Industrie : mode d’emploi

Hadoop et les donnees geographiques et temporelles

FR — Big Data Congress, Paris 2012 — 4/23

Page 5: Datasio - Big Data Congress Paris 2012

L’ere du ”Data Scientist”L’accumulation exponentielle de donnees transforme la demarche d’analyse

1960E. Wigner, ”The Unreasonable Effectiveness ofMathematics in the Natural Sciences,” Comm. Pure andApplied Mathematics, vol. 13, no. 1, pp. 1–14.

2009A. Halevy, P. Norvig, F. Pereira, ”The UnreasonableEffectiveness of Data,” IEEE Intelligent Systems, vol. 24,no. 2, pp. 8-12.

FR — Big Data Congress, Paris 2012 — 5/23

Page 6: Datasio - Big Data Congress Paris 2012

L’ere du ”Data Scientist”L’accumulation exponentielle de donnees transforme la demarche d’analyse

1960E. Wigner, ”The Unreasonable Effectiveness ofMathematics in the Natural Sciences,” Comm. Pure andApplied Mathematics, vol. 13, no. 1, pp. 1–14.

2009A. Halevy, P. Norvig, F. Pereira, ”The UnreasonableEffectiveness of Data,” IEEE Intelligent Systems, vol. 24,no. 2, pp. 8-12.

FR — Big Data Congress, Paris 2012 — 5/23

Page 7: Datasio - Big Data Congress Paris 2012

“ All models are wrong,but some are useful. ” George Box

FR — Big Data Congress, Paris 2012 — 6/23

Page 8: Datasio - Big Data Congress Paris 2012

Data Scientist= nouveau metier?

Ce qui ne change pasI Le besoin en competences statistiques

(Bayesiennes, frequentistes etc...)I La demarche de questionnement et de critiqueI Les protocoles de collecte de donnees

Ce qui changeI Le stockage et le traitement de donneesI L’interaction entre modelisateurs, ingenieurs

systemes et bases de donnees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23

Page 9: Datasio - Big Data Congress Paris 2012

Data Scientist= nouveau metier?

Ce qui ne change pasI Le besoin en competences statistiques

(Bayesiennes, frequentistes etc...)I La demarche de questionnement et de critiqueI Les protocoles de collecte de donnees

Ce qui changeI Le stockage et le traitement de donneesI L’interaction entre modelisateurs, ingenieurs

systemes et bases de donnees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23

Page 10: Datasio - Big Data Congress Paris 2012

Data Scientist= nouveau metier?

Ce qui ne change pasI Le besoin en competences statistiques

(Bayesiennes, frequentistes etc...)I La demarche de questionnement et de critiqueI Les protocoles de collecte de donnees

Ce qui changeI Le stockage et le traitement de donneesI L’interaction entre modelisateurs, ingenieurs

systemes et bases de donnees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23

Page 11: Datasio - Big Data Congress Paris 2012

Data Scientist= nouveau metier?

Ce qui ne change pasI Le besoin en competences statistiques

(Bayesiennes, frequentistes etc...)I La demarche de questionnement et de critiqueI Les protocoles de collecte de donnees

Ce qui changeI Le stockage et le traitement de donneesI L’interaction entre modelisateurs, ingenieurs

systemes et bases de donnees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23

Page 12: Datasio - Big Data Congress Paris 2012

Data Scientist= nouveau metier?

Ce qui ne change pasI Le besoin en competences statistiques

(Bayesiennes, frequentistes etc...)I La demarche de questionnement et de critiqueI Les protocoles de collecte de donnees

Ce qui changeI Le stockage et le traitement de donneesI L’interaction entre modelisateurs, ingenieurs

systemes et bases de donnees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23

Page 13: Datasio - Big Data Congress Paris 2012

Data Scientist= nouveau metier?

Ce qui ne change pasI Le besoin en competences statistiques

(Bayesiennes, frequentistes etc...)I La demarche de questionnement et de critiqueI Les protocoles de collecte de donnees

Ce qui changeI Le stockage et le traitement de donneesI L’interaction entre modelisateurs, ingenieurs

systemes et bases de donnees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23

Page 14: Datasio - Big Data Congress Paris 2012

Data Scientist= nouveau metier?

Ce qui ne change pasI Le besoin en competences statistiques

(Bayesiennes, frequentistes etc...)I La demarche de questionnement et de critiqueI Les protocoles de collecte de donnees

Ce qui changeI Le stockage et le traitement de donneesI L’interaction entre modelisateurs, ingenieurs

systemes et bases de donnees et ... le client

FR — Big Data Congress, Paris 2012 — 7/23

Page 15: Datasio - Big Data Congress Paris 2012

Points cles

Vers une Science ultra-empirique?

Big Data pour la Recherche et l’Industrie : mode d’emploi

Hadoop et les donnees geographiques et temporelles

FR — Big Data Congress, Paris 2012 — 8/23

Page 16: Datasio - Big Data Congress Paris 2012

DefinitionI Big Data = gros volume (> 10 TB)

I Imagerie satellite 1-10 GB/jourI Systemes geolocalises (vehicules, personnes) 100

MB/jourI Modeles meteo 100 GB/jourI Simulateurs (traffic routier etc...) 100 GB/run

I Big Data + Big ProcessI Donnees pre-traitees (GPS) Cout d’analyse -I Aggregation, contextualisation Cout d’analyse +I Appels BD Cout d’analyse +++I Calculs en cascade Cout d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

Page 17: Datasio - Big Data Congress Paris 2012

DefinitionI Big Data = gros volume (> 10 TB)

I Imagerie satellite 1-10 GB/jourI Systemes geolocalises (vehicules, personnes) 100

MB/jourI Modeles meteo 100 GB/jourI Simulateurs (traffic routier etc...) 100 GB/run

I Big Data + Big ProcessI Donnees pre-traitees (GPS) Cout d’analyse -I Aggregation, contextualisation Cout d’analyse +I Appels BD Cout d’analyse +++I Calculs en cascade Cout d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

Page 18: Datasio - Big Data Congress Paris 2012

DefinitionI Big Data = gros volume (> 10 TB)

I Imagerie satellite 1-10 GB/jourI Systemes geolocalises (vehicules, personnes) 100

MB/jourI Modeles meteo 100 GB/jourI Simulateurs (traffic routier etc...) 100 GB/run

I Big Data + Big ProcessI Donnees pre-traitees (GPS) Cout d’analyse -I Aggregation, contextualisation Cout d’analyse +I Appels BD Cout d’analyse +++I Calculs en cascade Cout d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

Page 19: Datasio - Big Data Congress Paris 2012

DefinitionI Big Data = gros volume (> 10 TB)

I Imagerie satellite 1-10 GB/jourI Systemes geolocalises (vehicules, personnes) 100

MB/jourI Modeles meteo 100 GB/jourI Simulateurs (traffic routier etc...) 100 GB/run

I Big Data + Big ProcessI Donnees pre-traitees (GPS) Cout d’analyse -I Aggregation, contextualisation Cout d’analyse +I Appels BD Cout d’analyse +++I Calculs en cascade Cout d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

Page 20: Datasio - Big Data Congress Paris 2012

DefinitionI Big Data = gros volume (> 10 TB)

I Imagerie satellite 1-10 GB/jourI Systemes geolocalises (vehicules, personnes) 100

MB/jourI Modeles meteo 100 GB/jourI Simulateurs (traffic routier etc...) 100 GB/run

I Big Data + Big ProcessI Donnees pre-traitees (GPS) Cout d’analyse -I Aggregation, contextualisation Cout d’analyse +I Appels BD Cout d’analyse +++I Calculs en cascade Cout d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

Page 21: Datasio - Big Data Congress Paris 2012

DefinitionI Big Data = gros volume (> 10 TB)

I Imagerie satellite 1-10 GB/jourI Systemes geolocalises (vehicules, personnes) 100

MB/jourI Modeles meteo 100 GB/jourI Simulateurs (traffic routier etc...) 100 GB/run

I Big Data + Big ProcessI Donnees pre-traitees (GPS) Cout d’analyse -I Aggregation, contextualisation Cout d’analyse +I Appels BD Cout d’analyse +++I Calculs en cascade Cout d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

Page 22: Datasio - Big Data Congress Paris 2012

DefinitionI Big Data = gros volume (> 10 TB)

I Imagerie satellite 1-10 GB/jourI Systemes geolocalises (vehicules, personnes) 100

MB/jourI Modeles meteo 100 GB/jourI Simulateurs (traffic routier etc...) 100 GB/run

I Big Data + Big ProcessI Donnees pre-traitees (GPS) Cout d’analyse -I Aggregation, contextualisation Cout d’analyse +I Appels BD Cout d’analyse +++I Calculs en cascade Cout d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

Page 23: Datasio - Big Data Congress Paris 2012

DefinitionI Big Data = gros volume (> 10 TB)

I Imagerie satellite 1-10 GB/jourI Systemes geolocalises (vehicules, personnes) 100

MB/jourI Modeles meteo 100 GB/jourI Simulateurs (traffic routier etc...) 100 GB/run

I Big Data + Big ProcessI Donnees pre-traitees (GPS) Cout d’analyse -I Aggregation, contextualisation Cout d’analyse +I Appels BD Cout d’analyse +++I Calculs en cascade Cout d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

Page 24: Datasio - Big Data Congress Paris 2012

DefinitionI Big Data = gros volume (> 10 TB)

I Imagerie satellite 1-10 GB/jourI Systemes geolocalises (vehicules, personnes) 100

MB/jourI Modeles meteo 100 GB/jourI Simulateurs (traffic routier etc...) 100 GB/run

I Big Data + Big ProcessI Donnees pre-traitees (GPS) Cout d’analyse -I Aggregation, contextualisation Cout d’analyse +I Appels BD Cout d’analyse +++I Calculs en cascade Cout d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

Page 25: Datasio - Big Data Congress Paris 2012

DefinitionI Big Data = gros volume (> 10 TB)

I Imagerie satellite 1-10 GB/jourI Systemes geolocalises (vehicules, personnes) 100

MB/jourI Modeles meteo 100 GB/jourI Simulateurs (traffic routier etc...) 100 GB/run

I Big Data + Big ProcessI Donnees pre-traitees (GPS) Cout d’analyse -I Aggregation, contextualisation Cout d’analyse +I Appels BD Cout d’analyse +++I Calculs en cascade Cout d’analyse +++

FR — Big Data Congress, Paris 2012 — 9/23

Page 26: Datasio - Big Data Congress Paris 2012

Diagnostic Big DataDocteur, ais-je un probleme Big Data?

Oui, si :I Vous avez un reseau d’observation autonome

(capteurs meteo, RFID, GPS, balises Argos,smartphones, telemetres, instruments sursatellites...)

I Vos donnees dependent d’une communauted’utilisateurs ou d’individus instrumentes (etude de lamobilite humaine, ecologie terrestre et marine etc... )

I Votre budget, programme de recherche ou businessplan prevoit de ”mesurer d’abord, traiter ensuite”

I Ces systemes de collecte produisent des flots dedonnees plus vite que vous ne pouvez les traiter

FR — Big Data Congress, Paris 2012 — 10/23

Page 27: Datasio - Big Data Congress Paris 2012

Diagnostic Big DataDocteur, ais-je un probleme Big Data?

Oui, si :I Vous avez un reseau d’observation autonome

(capteurs meteo, RFID, GPS, balises Argos,smartphones, telemetres, instruments sursatellites...)

I Vos donnees dependent d’une communauted’utilisateurs ou d’individus instrumentes (etude de lamobilite humaine, ecologie terrestre et marine etc... )

I Votre budget, programme de recherche ou businessplan prevoit de ”mesurer d’abord, traiter ensuite”

I Ces systemes de collecte produisent des flots dedonnees plus vite que vous ne pouvez les traiter

FR — Big Data Congress, Paris 2012 — 10/23

Page 28: Datasio - Big Data Congress Paris 2012

Diagnostic Big DataDocteur, ais-je un probleme Big Data?

Oui, si :I Vous avez un reseau d’observation autonome

(capteurs meteo, RFID, GPS, balises Argos,smartphones, telemetres, instruments sursatellites...)

I Vos donnees dependent d’une communauted’utilisateurs ou d’individus instrumentes (etude de lamobilite humaine, ecologie terrestre et marine etc... )

I Votre budget, programme de recherche ou businessplan prevoit de ”mesurer d’abord, traiter ensuite”

I Ces systemes de collecte produisent des flots dedonnees plus vite que vous ne pouvez les traiter

FR — Big Data Congress, Paris 2012 — 10/23

Page 29: Datasio - Big Data Congress Paris 2012

Diagnostic Big DataDocteur, ais-je un probleme Big Data?

Oui, si :I Vous avez un reseau d’observation autonome

(capteurs meteo, RFID, GPS, balises Argos,smartphones, telemetres, instruments sursatellites...)

I Vos donnees dependent d’une communauted’utilisateurs ou d’individus instrumentes (etude de lamobilite humaine, ecologie terrestre et marine etc... )

I Votre budget, programme de recherche ou businessplan prevoit de ”mesurer d’abord, traiter ensuite”

I Ces systemes de collecte produisent des flots dedonnees plus vite que vous ne pouvez les traiter

FR — Big Data Congress, Paris 2012 — 10/23

Page 30: Datasio - Big Data Congress Paris 2012

Diagnostic Big DataDocteur, ais-je un probleme Big Data?

Oui, si :I Vous avez un reseau d’observation autonome

(capteurs meteo, RFID, GPS, balises Argos,smartphones, telemetres, instruments sursatellites...)

I Vos donnees dependent d’une communauted’utilisateurs ou d’individus instrumentes (etude de lamobilite humaine, ecologie terrestre et marine etc... )

I Votre budget, programme de recherche ou businessplan prevoit de ”mesurer d’abord, traiter ensuite”

I Ces systemes de collecte produisent des flots dedonnees plus vite que vous ne pouvez les traiter

FR — Big Data Congress, Paris 2012 — 10/23

Page 31: Datasio - Big Data Congress Paris 2012

Diagnostic Big DataC’est grave, Docteur?

“ Tout ira bien,je vais vous prescrire du DevOps et des calculsdistribues. ”

FR — Big Data Congress, Paris 2012 — 11/23

Page 32: Datasio - Big Data Congress Paris 2012

Solutions Big Data

FR — Big Data Congress, Paris 2012 — 12/23

Page 33: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Dev

FR — Big Data Congress, Paris 2012 — 12/23

Page 34: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Operations

Dev

FR — Big Data Congress, Paris 2012 — 12/23

Page 35: Datasio - Big Data Congress Paris 2012

Solutions Big Data

QA

Operations

Dev

FR — Big Data Congress, Paris 2012 — 12/23

Page 36: Datasio - Big Data Congress Paris 2012

Solutions Big Data

QA

Operations

Dev

DevOps

FR — Big Data Congress, Paris 2012 — 12/23

Page 37: Datasio - Big Data Congress Paris 2012

Solutions Big Data

HierI Noeuds de

stockageperipheriques

I Stockage surplusieurs niveaux”chaud”/”froid”

I Supercalculateurau centre

I Data -> Code

FR — Big Data Congress, Paris 2012 — 13/23

Page 38: Datasio - Big Data Congress Paris 2012

Solutions Big Data

HierI Noeuds de

stockageperipheriques

I Stockage surplusieurs niveaux”chaud”/”froid”

I Supercalculateurau centre

I Data -> Code

FR — Big Data Congress, Paris 2012 — 13/23

Page 39: Datasio - Big Data Congress Paris 2012

Solutions Big Data

HierI Noeuds de

stockageperipheriques

I Stockage surplusieurs niveaux”chaud”/”froid”

I Supercalculateurau centre

I Data -> Code

FR — Big Data Congress, Paris 2012 — 13/23

Page 40: Datasio - Big Data Congress Paris 2012

Solutions Big Data

HierI Noeuds de

stockageperipheriques

I Stockage surplusieurs niveaux”chaud”/”froid”

I Supercalculateurau centre

I Data -> Code

FR — Big Data Congress, Paris 2012 — 13/23

Page 41: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Aujourd’huiI Noeuds de stockage sur meme reseau GBI Materiel milieu de gamme (100 - 1000 CPUs)I Systeme de fichiers distribues (DFS)I Gestion des jobs et donnees par des Master NodesI Code -> Data

FR — Big Data Congress, Paris 2012 — 14/23

Page 42: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Aujourd’huiI Noeuds de stockage sur meme reseau GBI Materiel milieu de gamme (100 - 1000 CPUs)I Systeme de fichiers distribues (DFS)I Gestion des jobs et donnees par des Master NodesI Code -> Data

FR — Big Data Congress, Paris 2012 — 14/23

Page 43: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Aujourd’huiI Noeuds de stockage sur meme reseau GBI Materiel milieu de gamme (100 - 1000 CPUs)I Systeme de fichiers distribues (DFS)I Gestion des jobs et donnees par des Master NodesI Code -> Data

FR — Big Data Congress, Paris 2012 — 14/23

Page 44: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Aujourd’huiI Noeuds de stockage sur meme reseau GBI Materiel milieu de gamme (100 - 1000 CPUs)I Systeme de fichiers distribues (DFS)I Gestion des jobs et donnees par des Master NodesI Code -> Data

FR — Big Data Congress, Paris 2012 — 14/23

Page 45: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Aujourd’huiI Noeuds de stockage sur meme reseau GBI Materiel milieu de gamme (100 - 1000 CPUs)I Systeme de fichiers distribues (DFS)I Gestion des jobs et donnees par des Master NodesI Code -> Data

FR — Big Data Congress, Paris 2012 — 14/23

Page 46: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Aujourd’huiI Noeuds de stockage sur meme reseau GBI Materiel milieu de gamme (100 - 1000 CPUs)I Systeme de fichiers distribues (DFS)I Gestion des jobs et donnees par des Master NodesI Code -> Data

FR — Big Data Congress, Paris 2012 — 14/23

Page 47: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Pourquoi Hadoop?I Open source (fondation Apache, ouvert par Yahoo)I Projet en maturation, communaute activeI Parallelisation de taches et donnees robusteI Standard de facto en analyse de donnees massivesI Bonne interoperabilite avec les data warehouse et

BDs existantes (ETL, Hive, Sqoop)I Offres commerciales (support, packaging,

integration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23

Page 48: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Pourquoi Hadoop?I Open source (fondation Apache, ouvert par Yahoo)I Projet en maturation, communaute activeI Parallelisation de taches et donnees robusteI Standard de facto en analyse de donnees massivesI Bonne interoperabilite avec les data warehouse et

BDs existantes (ETL, Hive, Sqoop)I Offres commerciales (support, packaging,

integration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23

Page 49: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Pourquoi Hadoop?I Open source (fondation Apache, ouvert par Yahoo)I Projet en maturation, communaute activeI Parallelisation de taches et donnees robusteI Standard de facto en analyse de donnees massivesI Bonne interoperabilite avec les data warehouse et

BDs existantes (ETL, Hive, Sqoop)I Offres commerciales (support, packaging,

integration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23

Page 50: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Pourquoi Hadoop?I Open source (fondation Apache, ouvert par Yahoo)I Projet en maturation, communaute activeI Parallelisation de taches et donnees robusteI Standard de facto en analyse de donnees massivesI Bonne interoperabilite avec les data warehouse et

BDs existantes (ETL, Hive, Sqoop)I Offres commerciales (support, packaging,

integration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23

Page 51: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Pourquoi Hadoop?I Open source (fondation Apache, ouvert par Yahoo)I Projet en maturation, communaute activeI Parallelisation de taches et donnees robusteI Standard de facto en analyse de donnees massivesI Bonne interoperabilite avec les data warehouse et

BDs existantes (ETL, Hive, Sqoop)I Offres commerciales (support, packaging,

integration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23

Page 52: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Pourquoi Hadoop?I Open source (fondation Apache, ouvert par Yahoo)I Projet en maturation, communaute activeI Parallelisation de taches et donnees robusteI Standard de facto en analyse de donnees massivesI Bonne interoperabilite avec les data warehouse et

BDs existantes (ETL, Hive, Sqoop)I Offres commerciales (support, packaging,

integration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23

Page 53: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Pourquoi Hadoop?I Open source (fondation Apache, ouvert par Yahoo)I Projet en maturation, communaute activeI Parallelisation de taches et donnees robusteI Standard de facto en analyse de donnees massivesI Bonne interoperabilite avec les data warehouse et

BDs existantes (ETL, Hive, Sqoop)I Offres commerciales (support, packaging,

integration: IBM, Cloudera, AWS...)

FR — Big Data Congress, Paris 2012 — 15/23

Page 54: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Pourquoi Hadoop?I Difficile a ”tuner” pour des jobs complexesI Encore confidentiel en France (cf. groupe Hadoop

France sur LinkedIn)I Difficile de formuler certains algorithmes sous forme

map-reduceI Embauche et formation de developpeurs et analystesI Autres alternatives disponibles (BSP, Storm, Disco...)

FR — Big Data Congress, Paris 2012 — 16/23

Page 55: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Pourquoi Hadoop?I Difficile a ”tuner” pour des jobs complexesI Encore confidentiel en France (cf. groupe Hadoop

France sur LinkedIn)I Difficile de formuler certains algorithmes sous forme

map-reduceI Embauche et formation de developpeurs et analystesI Autres alternatives disponibles (BSP, Storm, Disco...)

FR — Big Data Congress, Paris 2012 — 16/23

Page 56: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Pourquoi Hadoop?I Difficile a ”tuner” pour des jobs complexesI Encore confidentiel en France (cf. groupe Hadoop

France sur LinkedIn)I Difficile de formuler certains algorithmes sous forme

map-reduceI Embauche et formation de developpeurs et analystesI Autres alternatives disponibles (BSP, Storm, Disco...)

FR — Big Data Congress, Paris 2012 — 16/23

Page 57: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Pourquoi Hadoop?I Difficile a ”tuner” pour des jobs complexesI Encore confidentiel en France (cf. groupe Hadoop

France sur LinkedIn)I Difficile de formuler certains algorithmes sous forme

map-reduceI Embauche et formation de developpeurs et analystesI Autres alternatives disponibles (BSP, Storm, Disco...)

FR — Big Data Congress, Paris 2012 — 16/23

Page 58: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Pourquoi Hadoop?I Difficile a ”tuner” pour des jobs complexesI Encore confidentiel en France (cf. groupe Hadoop

France sur LinkedIn)I Difficile de formuler certains algorithmes sous forme

map-reduceI Embauche et formation de developpeurs et analystesI Autres alternatives disponibles (BSP, Storm, Disco...)

FR — Big Data Congress, Paris 2012 — 16/23

Page 59: Datasio - Big Data Congress Paris 2012

Solutions Big Data

Pourquoi Hadoop?I Difficile a ”tuner” pour des jobs complexesI Encore confidentiel en France (cf. groupe Hadoop

France sur LinkedIn)I Difficile de formuler certains algorithmes sous forme

map-reduceI Embauche et formation de developpeurs et analystesI Autres alternatives disponibles (BSP, Storm, Disco...)

FR — Big Data Congress, Paris 2012 — 16/23

Page 60: Datasio - Big Data Congress Paris 2012

Solutions Big Data

FR — Big Data Congress, Paris 2012 — 17/23

Page 61: Datasio - Big Data Congress Paris 2012

Solutions Big Data

HDFS

FR — Big Data Congress, Paris 2012 — 17/23

Page 62: Datasio - Big Data Congress Paris 2012

Solutions Big Data

HDFS

Map Reduce

FR — Big Data Congress, Paris 2012 — 17/23

Page 63: Datasio - Big Data Congress Paris 2012

Solutions Big Data

HDFS

Map Reduce HBase

FR — Big Data Congress, Paris 2012 — 17/23

Page 64: Datasio - Big Data Congress Paris 2012

Solutions Big Data

HDFS

Map Reduce HBase

Hive

FR — Big Data Congress, Paris 2012 — 17/23

Page 65: Datasio - Big Data Congress Paris 2012

Solutions Big Data

HDFS

Map Reduce HBase

Hive Pig

FR — Big Data Congress, Paris 2012 — 17/23

Page 66: Datasio - Big Data Congress Paris 2012

Solutions Big Data

HDFS

Map Reduce HBase

Hive Pig Mahout

FR — Big Data Congress, Paris 2012 — 17/23

Page 67: Datasio - Big Data Congress Paris 2012

Solutions Big Data

HDFS

Map Reduce HBase

Hive Pig Mahout

Zook

eepe

r

FR — Big Data Congress, Paris 2012 — 17/23

Page 68: Datasio - Big Data Congress Paris 2012

Points cles

Vers une Science ultra-empirique?

Big Data pour la Recherche et l’Industrie : mode d’emploi

Hadoop et les donnees geographiques et temporelles

FR — Big Data Congress, Paris 2012 — 18/23

Page 69: Datasio - Big Data Congress Paris 2012

Hadoop-xytou Hadoop et les donnees geographiques et temporelles

BesoinI retraitement et fouille de donnees historiques

(geographiques et series temporelles)I Accelerer la decouverte d’anomalies et l’extraction de

valeur ajoutee

ProblematiqueI Donnees tres structurees - solution competitive?I Donnees correlees = pb du traitement independant?I Donnees stockees en fichiers binaires - distribution?I Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23

Page 70: Datasio - Big Data Congress Paris 2012

Hadoop-xytou Hadoop et les donnees geographiques et temporelles

BesoinI retraitement et fouille de donnees historiques

(geographiques et series temporelles)I Accelerer la decouverte d’anomalies et l’extraction de

valeur ajoutee

ProblematiqueI Donnees tres structurees - solution competitive?I Donnees correlees = pb du traitement independant?I Donnees stockees en fichiers binaires - distribution?I Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23

Page 71: Datasio - Big Data Congress Paris 2012

Hadoop-xytou Hadoop et les donnees geographiques et temporelles

BesoinI retraitement et fouille de donnees historiques

(geographiques et series temporelles)I Accelerer la decouverte d’anomalies et l’extraction de

valeur ajoutee

ProblematiqueI Donnees tres structurees - solution competitive?I Donnees correlees = pb du traitement independant?I Donnees stockees en fichiers binaires - distribution?I Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23

Page 72: Datasio - Big Data Congress Paris 2012

Hadoop-xytou Hadoop et les donnees geographiques et temporelles

BesoinI retraitement et fouille de donnees historiques

(geographiques et series temporelles)I Accelerer la decouverte d’anomalies et l’extraction de

valeur ajoutee

ProblematiqueI Donnees tres structurees - solution competitive?I Donnees correlees = pb du traitement independant?I Donnees stockees en fichiers binaires - distribution?I Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23

Page 73: Datasio - Big Data Congress Paris 2012

Hadoop-xytou Hadoop et les donnees geographiques et temporelles

BesoinI retraitement et fouille de donnees historiques

(geographiques et series temporelles)I Accelerer la decouverte d’anomalies et l’extraction de

valeur ajoutee

ProblematiqueI Donnees tres structurees - solution competitive?I Donnees correlees = pb du traitement independant?I Donnees stockees en fichiers binaires - distribution?I Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23

Page 74: Datasio - Big Data Congress Paris 2012

Hadoop-xytou Hadoop et les donnees geographiques et temporelles

BesoinI retraitement et fouille de donnees historiques

(geographiques et series temporelles)I Accelerer la decouverte d’anomalies et l’extraction de

valeur ajoutee

ProblematiqueI Donnees tres structurees - solution competitive?I Donnees correlees = pb du traitement independant?I Donnees stockees en fichiers binaires - distribution?I Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23

Page 75: Datasio - Big Data Congress Paris 2012

Hadoop-xytou Hadoop et les donnees geographiques et temporelles

BesoinI retraitement et fouille de donnees historiques

(geographiques et series temporelles)I Accelerer la decouverte d’anomalies et l’extraction de

valeur ajoutee

ProblematiqueI Donnees tres structurees - solution competitive?I Donnees correlees = pb du traitement independant?I Donnees stockees en fichiers binaires - distribution?I Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23

Page 76: Datasio - Big Data Congress Paris 2012

Hadoop-xytou Hadoop et les donnees geographiques et temporelles

BesoinI retraitement et fouille de donnees historiques

(geographiques et series temporelles)I Accelerer la decouverte d’anomalies et l’extraction de

valeur ajoutee

ProblematiqueI Donnees tres structurees - solution competitive?I Donnees correlees = pb du traitement independant?I Donnees stockees en fichiers binaires - distribution?I Algorithmes metier a reutiliser - interface Java?

FR — Big Data Congress, Paris 2012 — 19/23

Page 77: Datasio - Big Data Congress Paris 2012

Hadoop-xytTraitement d’images

I Extraction + tiling + renderingI Calculs massivement paralleles = gain de temps +++

FR — Big Data Congress, Paris 2012 — 20/23

Page 78: Datasio - Big Data Congress Paris 2012

Hadoop-xytTraitement d’images

I Extraction + tiling + renderingI Calculs massivement paralleles = gain de temps +++

FR — Big Data Congress, Paris 2012 — 20/23

Page 79: Datasio - Big Data Congress Paris 2012

Hadoop-xytTraitement d’images

I Extraction + tiling + renderingI Calculs massivement paralleles = gain de temps +++

FR — Big Data Congress, Paris 2012 — 20/23

Page 80: Datasio - Big Data Congress Paris 2012

Hadoop-xytTraitement d’images

I Extraction + tiling + renderingI Calculs massivement paralleles = gain de temps +++

FR — Big Data Congress, Paris 2012 — 20/23

Page 81: Datasio - Big Data Congress Paris 2012

Hadoop-xytTraitement d’images

I Extraction + tiling + renderingI Calculs massivement paralleles = gain de temps +++

FR — Big Data Congress, Paris 2012 — 20/23

Page 82: Datasio - Big Data Congress Paris 2012

Hadoop-xytTraitement d’images

I Extraction + tiling + renderingI Calculs massivement paralleles = gain de temps +++

FR — Big Data Congress, Paris 2012 — 20/23

Page 83: Datasio - Big Data Congress Paris 2012

Hadoop-xytTraitement d’images

I Extraction + tiling + renderingI Calculs massivement paralleles = gain de temps +++

FR — Big Data Congress, Paris 2012 — 20/23

Page 84: Datasio - Big Data Congress Paris 2012

Hadoop-xytGeolocalisation de vehicules

FR — Big Data Congress, Paris 2012 — 21/23

Page 85: Datasio - Big Data Congress Paris 2012

Transport terrestre

Transport aerien

Tracabilite

Telemetrie - Argos

Oceanographie

Imagerie satellite

FR — Big Data Congress, Paris 2012 — 22/23

Page 86: Datasio - Big Data Congress Paris 2012

DatasioWe are Data Scientists

Data Mining · Prototypage · Algorithmie ·Detection d’anomalies · Prediction · MachineLearning · Spatial data · Time series

Francois [email protected]

www.datasio.com

FR — Big Data Congress, Paris 2012 — 23/23