il Était une fois la radiomique - sfrnet.org

IL ÉTAIT UNE FOIS LA RADIOMIQUE

Service de Radiologie, Service de Bioinformatique, Biostatistiques, Hôpital Européen Georges Pompidou

Team 2 “Imaging of angiogenesis” UMR 970, PARCC@HEGP

INSERM UMR_S 1138 eq22 “Information Sciences to support Personalized Medicine”

L Fournier, A Bouchouicha, J Deidier, AL Gaultier, L Duron, D Balvay, B Rance

DÉVELOPPEMENT DE NOUVEAUX BIOMARQUEURS

Hypothesis Driven Research

Formuler une hypothèse

Collecter les données

Analyser & interpréter

Nouveau biomarqueur

potentiel

Validation technique

Validation clinique

HYPOTHESES SOUS-TENDANT LA RADIOMIQUE

1. L’image est une expression phénotypique de la biologie

2. Il y a plus d’informations dans l’image que ce que voit l’œil nu

3. Il faut augmenter l’efficacité de la recherche de biomarqueurs en imagerie en mettant en place des méthodes de technologie à haut débit (high throughput)

L’IMAGE EST UNE EXPRESSION PHÉNOTYPIQUE DE LA BIOLOGIE

TUMEUR

Différents clones

cellulaires

Expression génique Biomoléculaire

Réponse au traitement

HÉTÉROGÉNÉITÉ BIOLOGIQUE

HÉTÉROGÉNÉITÉ EN IMAGERIE

L’IMAGE EST UNE EXPRESSION PHÉNOTYPIQUE DE LA BIOLOGIE

Descripteurs

HÉTÉROGÉNÉITÉ BIOLOGIQUE

HÉTÉROGÉNÉITÉ EN IMAGERIE

QUANTIFICATIONDE L’ HÉTÉROGÉNÉITÉ RADIOMIQUE

IL Y A PLUS D’INFORMATIONS DANS L’IMAGE

IL FAUT AUGMENTER L’EFFICACITÉ DE DÉCOUVERTE

Quels sont les descripteurs les plus performants?

Comment les calculer?

Quels pré-traitements permettent de les calculer afin d’optimiser

leurs performances?

Je ne sais pas?Je les teste tous!

PRINCIPE DE LA GÉNOMIQUE

8

Population de patients

Séquençage complet du génome

Identifier des gènes qui différencient les patients en fonction de leur « devenir » (pronostic, réponse au traitement…)

Castro-Vega, Nat Commun 2015

PRINCIPE DE LA GÉNOMIQUE

9

Population de patients

Séquençage complet du génome

Identifier des gènes qui différencient les patients en fonction de leur « devenir »

Castro-Vega, Nat Commun 2015

Lièvre et al., Cancer Res April 15 2006

APPLICATION À L’IMAGERIE

Collecter un grand nombre

de données

Data Driven Research


Qualification technique

Générer une hypothèse

Validation clinique

Nouveau biomarqueur

potentiel

PRINCIPES DE LA RADIOMIQUE

Data-driven

Discovery-centred

big Data

3 principes (les 3 D)

BIG DATA

Extraction (+/- automatisée) d’un grand nombre de paramètres quantitatifs en imagerie sans hypothèse a priori (ni sur le paramètre, ni sur le pré-traitement nécessaire)

Corrélation au devenir

Corrélation aux profils d’expression génique

«Radiogénomique»

PronosticRéponse au traitement

Découverte de nouveaux profils de patientsNouveaux mécanismes moléculaires, gènes…

RADIOMIQUE: PROCESSUS

1. Constitution de la base de données d’images

2. Extraire le grand nombre de descripteurs(traitement d’image, et/ou IA)

3. Réduire les nombre de descripteurs

4. Corrélation au paramètre d’intérêt cliniqueméthodes bio-informatiques et bio-statistiques

(et/ou IA)

À PARTIR D’IMAGES DE ROUTINE CLINIQUE

BASÉ SUR LEUR QUALITÉ TECHNIQUE

SOUVENT L’ETAPE LIMITANTE

(et/ou IA)

EXTRACTION DES DESCRIPTEURS

- Par machine learning “classique”

- Par deep learning (“IA”)

14

https://www.datasciencecentral.com/profiles/blogs/artificial-intelligence-vs-machine-learning-vs-deep-learning

Intelligence artificielle : les machines effectuent unetâche qui requiertgénéralement l’intelligencehumaine

Machine learning: les machines apprennent par expérience et acquièrent des compétences sans implication humaine

Deep learning: machine learning utilisant des réseaux de neurones, algorithmes inspirés du cerveau humain, à partir de grandes quantités de données

L'algorithme exécute la tâche de manière itérative, en affinant un peu chaque fois pour améliorer le résultat

MODÈLE SUPERVISÉ

Chat

Pas Chat

Courtesy of G d’Assignies Angora

Siamois

Détection

Classification

Modèles supervisés

Les modèles ont besoin de données et d’annotations on décide à l’avance des classes que l’on souhaite identifier

Lésion

Pas lésion

In: BI-RADS lexicon 2013 Malin

Bénin

Détection

Classification

MODÈLE SUPERVISÉ

Modèles supervisés

Les modèles ont besoin de données et d’annotations on décide à l’avance des classes que l’on souhaite identifier

MACHINE LEARNING « CLASSIQUE » (APPRENTISSAGE AUTOMATIQUE)

1/ L’homme décrit l’objet et « traduit » les caractéristiques en descripteurs quantitatifs(« Descripteur engineering »)

Hosny et al, Nat Rev Cancer 2018

2/ Le modèle va tester de manière itérative la meilleure combinaison de descripteurs pour optimiser la séparation des classes

DEEP LEARNING (RÉSEAU DE NEURONES)Courtesy of B Rance

Pixel 1

Pixel 2

Pixel 3

Pixel 8

Image Diagnostic 1

Diagnostic 2

Phys Med Biol 2017

SEGMENTATION (MANUELLE OU AUTOMATISÉE)

ROI

FormeDistribution

d’intensité de signalTexture

ROI


Pre-traitement des images (filtres, agrégation de pixels, agrégation de niveaux de gris…)

Forme

ROI



20 40 60 80 100 120 140

20

40

60

80

100

120

140

160

180

20 40 60 80 100 120 140

20

40

60

80

100

120

140

160

180

1

0

20 40 60 80 100 120 140

20

40

60

80

100

120

140

160

180

Analyse de contoursIndex de compacitéSurface, volume, direction spatiale…

Distribution d’intensité de signal

ROI



Moyenne centre de la distributionDéviation standard ou Variance echelle de la distributionSkewness symétrie de la distributionKurtosis caractère pointu de la distribution Energie, entropie…

Histogramme de la distribution du signal

Texture

ROI



Gray level co-occurrence matrix : changements de niveaux de gris par translation Gray level Run-Length matrix : nombre de lignes de niveaux de gris équivalents de longueur ou direction variables

Matrices de distribution spatiale des pixels

Matrice de co-occurrence

Pour une translation donnée: exemple 1 pixel

COMMENT LA DISTRIBUTION SPATIALE: “TEXTURE”

POURQUOI LA DISTRIBUTION SPATIALE: “TEXTURE”

LOSS OF SPATIAL INFORMATION (random x/y position)

D Balvay, PhD

Histogramme Matrice de co-occurence

FormeDistribution

d’intensité de signalTexture

ROI



Grand nombre de descripteurs / patient

RÉDUCTION DU NOMBREDE DESCRIPTEURS

(exemple de stratégie)

28

DEEP LEARNING (RÉSEAU DE NEURONES)

Radiomics

Diagnostic 1

Diagnostic 2

Descripteur 1

Descripteur 2

Descripteur 3

Descripteur 4

Descripteur 5

Descripteur 6

Descripteur 7

Descripteur 8

Courtesy of B Rance

STRATÉGIE 2: RÉDUCTION BASÉE SUR LA QUALITÉ

Collecter un grand nombre

de données

Data Driven Research


Qualification technique

Générer une hypothèse

Validation clinique

Nouveau biomarqueur

potentiel

CCC

(Concordance Correlation Coefficient)

Segmentation manuelle par 3 radiologues

radiologue1 radiologue2radiologue1 radiologue3

ICC

(Intra-class Correlation Coefficient)

Leijenar et al, Zhao et al

Reproductibilité intra- & inter-observateurs

RÉDUCTION BASÉE SUR LA ROBUSTESSE

Objectif: éliminer les descripteurs non reproductibles

Matrice de corrélation : évaluer la redondance entre les descripteurs

descripteurs anti-correlés

descripteurs correlés

Seuil de corrélation de Spearman= 0.9

Corrélogramme des 158 descripteurs les plus robustes

RÉDUCTION BASÉE SUR L’INDÉPENDANCE

Objectif: éliminer les descripteurs redondants (pas d’information supplémentaire)

Corrélogramme des 23 descripteurs les plus robustes et informatifs

A Bouchouicha, PhD

RÉDUCTION DU NOMBRE DE DESCRIPTEURS

A Bouchouicha, PhDAL Gaultier, MD

Clusters de descripteurs redondants

RÉDUCTION DU NOMBRE DE DESCRIPTEURS

1798 descripteurs

215 descripteurs

137 descripteurs

23 descripteurs

reproductibles et

indépendents

Reproductibilité (ICC)

Reproductibilité (CCC)

Indépendence(corrélation Spearman)

A Bouchouicha, PhDJ Deidier, MD

Exemple d’une étude chez des patients présentant un cancer du rein d’emblée métastatique en TDM (N = 27)

CORRÉLATION AU PARAMÈTRE D’INTÉRÊT

(exemples de stratégie)

35

Arbre de décision: C4.5

AB

C

DE

F

Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.

On définit deux classes:Class (ex: bénin)Class (ex: malin)

On mesure deux attributs (features/descripteurs):X – numérique (ex: taille)Y – numérique (ex: densité moyenne)

Couleur = Catégorie

Courtesy of B Rance

Classification par arbre de décision


AB

C

DE

F

X > 4.5

bleu(2 vrai)

ouinon

rouge(3 vrai, 1 faux)

Courtesy of B Rance




AB

C

DE

F

X > 4.5

bleu(2 vrai)

Y > 9.0

ouinon

bleu(1 vrai)

rouge(3 vrai)

ouinon

Courtesy of B Rance



C4.5 VS RANDOM FOREST (FORÊT ALÉATOIRE)

Commencer par le descripteur le plus informatif

Séparer selon le seuil le plus performant

Ajouter le descripteur le + informatif suivant

Si amélioration de la performance le garder sinon, passer au suivant

C4.5

RANDOM FOREST (FORÊT ALÉATOIRE)

Tirer au sort sous-groupe de patients

Optimiser l’arbre (id C4.5) avec les 3 meilleurs descripteurs et calculer sa

performance

Classer les descripteurs en fonction de la fréquence à

laquelle ils sont représentés dans les arbres

Random Forest

Créer un arbre combinant les meilleurs descripteurs

Ensemble learning

RANDOM FOREST (FORÊT ALÉATOIRE)

Tirer au sort sous-groupe de patients

Optimiser l’arbre (id C4.5) avec les 3 meilleurs descripteurs et calculer sa

performance

Classer les descripteurs en fonction de la fréquence à

laquelle ils sont représentés dans les arbres

Random Forest

Créer un arbre combinant les meilleurs descripteurs

Ensemble learning

N Spies, Bioinformatics explained, https://www.biostars.org/p/86981/

2ÈME STRATÉGIE: ARBRES DE DÉCISION

A Bouchouicha, PhDAL Gaultier, MD

103 descripteurs

92 descripteurs

84 descripteurs

26 descripteurs

reproductibles et

indépendents

Reproductibilité (ICC)

Reproductibilité (CCC)

Indépendence(corrélation Spearman)

Exemple d’une étude chez des patients présentant un cancer de l’oropharynx en IRM (N = 96)


Population divisée en 2 bases : Base d’apprentissage (70%)

Base de validation (30%)

Validation du modèle par: Cross Validation (CV) Repeat CV Leave One Out CV (LOOCV)

26 descripteurs triés par : Random Forest classification

Exemple d’une étude chez des patients présentant un cancer de l’oropharynx en IRM (N = 96) prédire le statut HPV


Sélection des 3 descripteurs les plus performants:

Elongation

GLRLM Run Percentage

IQR

Modèle ANOVA

Paramètre d’Elongation (forme)

Stable

Suffisant

prédit le statut HPV

96 patients / 3 descripteurs

LE TRAVAIL N’EST PAS TERMINÉ !

Comprendre le(s) paramètre(s) identifié(s)Elongation lié à l’anatomie oropharyngée? voies d’extension des tumeurs?

Améliorer le(s) paramètre(s) identifié(s)

Elongation HPV(-) HPV (+)

Average 0.599 0.729

Std Dev 0.190 0.126

Peut-on améliorer la

quantification pour accroitre les

différences entre les groupes?

Peut-on trouver un paramètre

semi-quantitatif plus facile à

mesurer en routine clinique?

CHALLENGES

48

Imputable Reliable Meaningful Actionable

Type # instances # patients

Demographics (age, sex, Hospital vital status) 742 487

Vital signs (temperature, blood pressure, weight, …) 14 million 141 725

Diagnoses (ICD 10 codes) 6 million 338 871

Medical Procedures (French CCAM codes) 4 million 285 097

Clinical data (EHR DxCare forms) 70 million 468 057

Free Text reports (Hospitalization, Surgery, Imaging, Pathology …)

3.5 million 359 547

Lab test results 103 million 379 483

Drug prescriptions 3.5 million 121 441

Omics data 80 million 173

Entrepôt de données

HEGP

ENJEU: OÙ TROUVER LES DONNÉES?

Type # instances # patients

Demographics (age, sex, Hospital vital status) 742 487

Vital signs (temperature, blood pressure, weight, …) 14 million 141 725

Diagnoses (ICD 10 codes) 6 million 338 871

Medical Procedures (French CCAM codes) 4 million 285 097

Clinical data (EHR DxCare forms) 70 million 468 057

Free Text reports (Hospitalization, Surgery, Imaging, Pathology …)

3.5 million 359 547

Lab test results 103 million 379 483

Drug prescriptions 3.5 million 121 441

Omics data 80 million 173

Entrepôt de données

HEGP


Information dérivée de l’image


Le radiologue annote les images dans le PACS information perdue!

Système d’archivage des images (PACS)


Le radiologue fait des comptes rendus information perdue!

TailleSignal T2

Signal T1

Signal DWI

ADC

Diagnostic

Localisation


Limites techniques: extraire les données vision par ordinateur, traitement de la langue naturelle…

Limites médicalesNombre de patients limités par institution

Disparités de prise en charge entre les institutions, les pays…

« Moving target » : changements constants de traitements disponibles, de techniques d’imagerie

ENJEU: GÉNÉRALISATION

Intrinsèquement dépendent de la population d’apprentissage: Généralisation?

S’assurer que les populations sont représentatives de celles auxquelles la signature sera appliquée

Population de validation obligatoire +++

ENJEU: CRÉDIBILITÉ

Détection d’une différence physiologique ou d’unedifférence technique?(Utiliser des cohortes avec une variété de machines / de protocoles d’acquisition / d’institutions…)

Paramètres de reconstruction différents paramètres de texture différents?

ENJEU: CRÉDIBILITÉ

Détection d’une différence physiologique ou d’unedifférence technique?(Utiliser des cohortes avec une variété de machines / de protocoles d’acquisition / d’institutions…)

Paramètres de reconstruction différents paramètres de texture différents?

« Sens radiologique »

ENJEU: COHÉRENCE (CRÉDIBILITÉ)

Pas de standardisation(difficile de reproduire ou comparer les résultats)des paramètres

du pré-traitement

des stratégies de réduction de dimensionnalité (nombre de descripteurs)

https://arxiv.org/abs/1612.07003

RECHERCHE CENTRÉE SUR LA DÉCOUVERTE

Enjeu 1: trouver de l’or parmi un tas de cailloux

Enjeu 2: s’assurer qu’il s’agit bien d’or

Enjeu 3: en faire quelque chose d’exploitable

Radiomique

Population de validation

Généralisation

CONCLUSION: RADIOMIQUE, POUR QUOI FAIRE?

Pour tester simultanément un grand nombre de nouveaux paramètres extraits des images Biomarqueurs potentiels qui doivent alors être compris et validés

Pour générer de nouvelles hypothèsesDétecter des nouveaux phénotypes en imagerie pourrait permettre

d’identifier des profils moléculaires pertinents

Enjeux multiplesObtenir des cohortes pertinentes

Avoir des résultats qui ont une pertinence et conséquence médicale

RADIOMIQUE: UN TRAVAIL D’ÉQUIPE

Radiologue qui part chercher de l’or…


Radiologue qui part chercher de l’or…

Radiologue qui se fait des amis:Data scientists, bio-informaticiens, statisticiens…


Service de radiologie, Hôpital Européen Georges Pompidou et équipe 2 “Imaging of angiogenesis” UMR 970, PARCC@HEGPDaniel BalvayAfef Bouchouicha Jonas DeidierLoïc DuronAugustin LeclerAnne-Laure Gaultier

Service de bio-informatique , Hôpital EuropéenGeorges Pompidou et INSERM UMR_S 1138 eq22 “Information Sciences to support Personalized Medicine”Bastien RanceAnita Burgun

Service d’oncologie médicale, Hôpital EuropéenGeorges PompidouStéphane Oudard

Radiologue qui se fait des amis:Data scientists, bio-informaticiens, statisticiens…

il Était une fois la radiomique - sfrnet.org

Documents