data science a machine learning tour
TRANSCRIPT
CHAPITRE 0 MACHINE LEARNING OVERVIEW MATHS
Copyright Franck Bardol 2016 2
CV
FranckBardol+33624309259
@bardolfranck
¡ ConsultantinMachineLearning
¡ Jury–organizerhackathons
¡ Trainerinmachinelearning
¡ co-organisermeetupParisMachineLearning
¡ Fondements
“We are living the age of information and entering the age of recommendation” The Long tail - Chris Anderson
Copyright Franck Bardol 2016 3
PARADOX OF CHOICE MORE IS LESS
¡ Fondements § “The web is leaving the era of search and entering one of discovery” § “Race to create a smart GOOGLE” – CNN –
Copyright Franck Bardol 2016 4
FROM SEARCH TO DISCOVERY
SEARCH
DISCOVERY
users
users
idea
idea
👧 👨
👦
👩
👧 👨
👦
👩
💡
🔮 ❤️
💡
🔮 ❤️
Copyright Franck Bardol 2016 5
FROM SEARCH TO DISCOVERY
“you may also like” “people
you may know”
“people to
follow”
reco in stealth mode
👧 👨
👦
👩 👩
👩
👮
80% watch
via RECO
¡ Quels sont les secteurs qui l’utilisent ?
§ Sites de streaming video § Sites marchands § Opérateur télécom § Formation & MOOC
Copyright Franck Bardol 2016 6
FROM SEARCH TO DISCOVERY
CA +35%
click +40%
¡ Apprentissage Définition : Modification du comportement par l’expérience
¡ Machine learning
définition : Programmes executables qui :
ü apprennent les données ü s’adaptent aux données ü s’améliorent au cours du temps
Copyright Franck Bardol 2016 7
DATA-SCIENCE QU’EST-CE-QUE C’EST ?
¡ Apprendre ? comment ?
par l’exemple !!
les couleurs
Copyright Franck Bardol 2016 8
QU’EST-CE QUE C’EST ?
Copyright Franck Bardol 2016 9
QU’EST-CE QUE C’EST ?
Apprendre Généraliser
quoi ? un concept
quand ? sur nouvelles
données
comment ?par l’exemple
pourquoi ? généraliser
Copyright Franck Bardol 2016 10
COMMENT ÇA FONCTIONNE ?
Intuition Hypothèses
Connaissances Modèle /
programme Données
Données Détecteur schémas cachés
Modèle/programme
informatique traditionnelle
informatique data driven
X , Y f
X , Y f
f X Y
PRODUCTION
input decision predict
COMMENT ÇA FONCTIONNE ?
DESCRIPTEURS / FEATURES nb_appel duree_
min appel internation
age categorie_socio
type_ forfait
3 46 6 98 86 11
4 33 0 8 6 12
PREDICTION
reste_client
part
PREDICTION
part
reste_client
DESCRIPTEURS / FEATURES nb_ appel
duree_min
appel internation
age categorie_socia
type_ forfait
3 46 6 98 86 11
4 33 0 8 6 12
1 - TRAIN
2 - TEST
34 7 56 2 3 - PREDICT ? NOUVELLE DATA
BASE D’APPRENTISSAGE
BASE DE TEST
PREDICTION
? Copyright Franck Bardol 2016 11
GENERALIZATION VS. OVERFITTING MEMORIZING VS. LEARNING
généraliser
Apprendre Généraliser
données d’apprentissage
STRUCTURE
DETAILS & BRUITS
nouvelles données
Copyright Franck Bardol 2016 12
Supervisé = exemples étiquettés ü Régression
prédire des chiffres continus
ü Classification prédire des étiquettes / classes / label
Copyright Franck Bardol 2016 13
APPRENTISSAGE SUPERVISÉ
COMBIEN ?
EST-CE QUE ?
Supervisé = exemples étiquettés ü Régression
prédire des chiffres continus
ü Classification prédire des étiquettes / classes / label
Copyright Franck Bardol 2016 14
APPRENTISSAGE SUPERVISÉ
big / little ?
temperature pressure stock markets
petit moyen grand très grand ?
COMBIEN ?
EST-CE QUE ?
Non supervisé = pas d’étiquettes ü Clustering
trouver des familles naturelles
ü Moteur de recommandation Introduire de la sérendipité controllable
Copyright Franck Bardol 2016 15
APPRENTISSAGE NON SUPERVISÉ
RESUME ?
Non supervisé = exemples non étiquettés ü Clustering – anomaly detection – recommender system
§ Comprendre, explorer, simplifier les données, trouver des structures cachées invisibles à l’oeil
Copyright Franck Bardol 2016 16
APPRENTISSAGE NON SUPERVISÉ
CARTE TOPOLOGIQUE 300 variables économiques (PIB/hab, accès eau, ….)
ANOMALY DETECTION
RECOMMENDER SYSTEM
RESUME ?
Copyright Franck Bardol 2016 17
EXEMPLES
web log text
text langue ?
EEG
web log
who ?
epilepsy ?
bot?
gender ?
churn?
CRIME where ? when ?
predpol.com
deepinstinct.com
Malicious Code & Attacks ?
age?
click pub ?
¡ Règles écrites “à la main” èapproche peu performante ¡ Pas de règles / absence d’expertise humaine
§ bio informatique
¡ Trop de règles § Difficulté à poser les règles, les expliquer… § La solution évolue § Reconnaissance artificielle (vision, parole, signes gestes …) § Voiture autonome § Ranking, Tracking, poursuite
§ routing computer networks § pub temps réel
Copyright Franck Bardol 2016 18
C’EST EFFICACE QUAND ?
pedestrian detection
Automatic questions – answering Requirement : ü never seen these words before ü comprehension
ü time element (« before », « after », …) ü action (« go », « pick up », …)
Copyright Franck Bardol 2016 19
EXEMPLES
www.github.com/vinhkhuc/MemN2N-babi-python
Copyright Franck Bardol 2016 20
EXEMPLES
HEP@LHC-CERN
boson?
100 million events / sec
CA +30%
buy ?
hire?
sign ?
success ?
70% accuracy
Copyright Franck Bardol 2016 21
DATA
Scrapping = extract info from web sites
opendata.cern.ch data.gov data.gouv.fr www = thousand more
Open Data
Scrapping
Copyright Franck Bardol 2016 22
DATA, BECAUSE …
ACCURACY
DATA
Copyright Franck Bardol 2016 23
DATA, BECAUSE …
PERF
DATA
MORE DATA !
¡ Pourquoi ?
Copyright Franck Bardol 2016 24
BUT …. BE CAREFUL
¡ De quoi parle-t-on ?
Copyright Franck Bardol 2016 25
BEWARE OF THE DIMENSION
p features (descripteurs - variables explicatives)
DIMENSION = p
VOLUME DATA
n SAMPLES
¡ De quoi parle-t-on ?
Copyright Franck Bardol 2016 26
DIMENSION ?
DIMENSION
VOLUME
TECHNO BIG DATA
STATISTICS & MACHINE LEARNING ACP
ACC SOM
n SAMPLES
¡ é dimension du problème èRISQUE de … § é corrélation fallacieuses - spurious correlations – potentielles
Tendance aléatoire fortuite commune http://www.tylervigen.com/spurious-correlations
§ é combinaisons fallacieuses - spurious combinations – potentielles Combinaisons fallacieuses qui peuvent “prédire” un phénomène é exponentielle du nombre de combinaisons entre les colonnes
§ é données nécessaires pour l’apprentissage § é exponentielle du nombre de lignes (samples) pour apprendre
convenablement § Curse of dimensionality
§ En très grande dimension, les données se trouvent toutes à égales distance. § Les méthode basées sur le voisinage (kNN…) échouent
Copyright Franck Bardol 2016 27
RÉDUCTION DIMENSION
DIMENSION
¡ é dimension du problème èRISQUE de … § é complexité de la solution
§ é complexité § Kolmogoroff § MDL : Minimum Description Length § Occam Razor “l’explication la plus simple est toujours la meilleure”
§ nb : simple ≠ simpliste
§ ê pouvoir explicatif de la solution § nb : pouvoir explicatif ≠ pouvoir prédictif
§ é sur-apprentissage – over fitting (par coeur vs. généralisation)
§ é difficulté de visualiser le problème (êintuition)
Copyright Franck Bardol 2016 28
RÉDUCTION DIMENSION
DIMENSION
¡ é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques Exemple inspiré de
Copyright Franck Bardol 2016 29
RÉDUCTION DIMENSION
DIMENSION
¡ é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques § Exemple en bio-informatique - génomique : § Quelques centaines de lignes (les patients - samples) vs. 100 millions de
descripteurs (les gènes extraits - features)
Copyright Franck Bardol 2016 30
RÉDUCTION DIMENSION
DIMENSION
contexte
¡ é dimension du problème èRISQUE de …
§ faire ECHOUER les méthodes statistiques et mathématiques
Copyright Franck Bardol 2016 31
RÉDUCTION DIMENSION
DIMENSION
problème !
¡ Pourquoi ê dimension du problème ? Vision d’ensemble donnée par 2 des plus grands spécialistes § Interview de Michael Jordan
§ Interview de Vladimir Vapnik § fichier “interview Vapnik”
Copyright Franck Bardol 2016 32
RÉDUCTION DIMENSION
Copyright Franck Bardol 2016 33
METHOD KEY SKILL = FAST PROTOTYPING
AVOID COMPLEXITY
NO
OK
NO
SIMPLEST SOLUTION
Copyright Franck Bardol 2016 34
COMPETE AGAINST OTHER DATA SCIENTIST
Key figures: • 400K data scientists • 2 million machine learning models Lessons learned from previous contest : • Top methods
• XgBoost models : for structured problems • Deep Learning : for unstructured problems (sounds, visual, texts)
- source : Anthony Goldbloom, CEO Kaggle – www.kaggle.com
Copyright Franck Bardol 2016 35
COMPETE AGAINST OTHER DATA SCIENTIST
www.datascience.net
www.challengedata.ens.fr
Copyright Franck Bardol 2016 36
DATA-SCIENCE + PYTHON = DREAM TEAM
¡ Python : langage de programmation ¡ Avantages :
§ Très vaste choix de librairies gratuites § Courbe d’apprentissage faible § Communauté d’utilisateurs actifs gigantesque § Le langage favori des data-scientists § Elimine la ré-écriture complète du code prototypé par data-scientist § langage interprété – prototyping rapide (pas de compilation – link) § lisibilité du code (via identation)
¡ Inconvénients : § langage interprété (pas d’étape compilation – link) § vitesse d’exécution
Copyright Franck Bardol 2016 37
DATA-SCIENCE AVEC PYTHON
Copyright Franck Bardol 2016 38
OPEN SOURCE TOOLS
vision langage
general purpose machine learning visualization
data management optimization …
package
thousand other tools
Copyright Franck Bardol 2016 39
API
portails API
www.mashape.com www.programmableweb.com www.mloss.org
thousand other tools
ULTRA FAST PROTOTYPING
#chargement des données � 1 import pandas as pd � data = pd.read_csv(‘data_to_read.csv’) #chargement d’une librairie � 2 from sklearn import model #chargement d’un algorithme de prédiction � 3 clf = model.algo() #ENTRAINEMENT sur les données d’apprentissage � 4 clf.fit(data_train , out_train) #TEST sur les données non vues � 5 predict = clf.predict(data_test)
Copyright Franck Bardol 2016 40
Copyright Franck Bardol 2016 41
BIBLIO
ainews.posthaven.com/16-free-ebooks-on-machine-learning
Copyright Franck Bardol 2016 42
Internet ressources : MOOC (massive onLine open courses)
Udacity.com coursera.org Edx.org france-universite-numerique.fr moocs.epfl.ch ...
Copyright Franck Bardol 2016 43
• duplique le savoir d’experts • construit des programmes exécutables de décision • augmente la boite à outils des analystes
Prediction
TAKE HOME
Machine Learning
Algo
Hidden Pattern Detector
Data TRAINING
PROD Data
Hidden Pattern Detector