progetto 1000 genomi, imputing,...
TRANSCRIPT
CORSO INTEGRATO DI GENETICA
a.a. 2010-2011Dr. Giovanni Malerba, [email protected]
18-11-2010
Progetto 1000 Genomi,Imputing, Meta-analisi
http://www.genome.gov/gwastudies/
Nature 447, 661-678(7 June 2007)
Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls
GWAS: Altezza
http://www.ncbi.nlm.nih.gov/pubmed/GWAS: Altezza
Representation of the connections between SNPs and corresponding genes for the 42 SNPs with GRAIL (p < 0.01). Thicker and redder lines imply stronger literature-based connectivity. [doi:10.1038/nature09410]
PATHWAYSPotenziali target
L'EREDITABILITÀ MANCANTE
I loci individuati dai GWAS spiegano in genere una ridotta quantità della variabilità legata alla componente genetica (ereditabilità; < ~20%)
La parte mancante viene scherzosamente definita la MATERIA OSCURA dei GWAS perchè si è sicuri che esista, si vede il suo effetto, ma NON si riesce a vederla.
Nota: L'ereditabilità dei caratteri quantitativi (h^2: prop di varianza attribuibile ai fattori genetici addittivi) è tipicamente stimata dagli studi familiari e quindi il suo valore potrebbe variare nei diversi ambienti
L'eredità mancante dei GWAS
LIPIDI: geni con varianti comuni e con varianti rare
Il rischio determinato tramite gli SNP potrebbe sottostimare il rischio associato alle vere varianti causali
Es: 11 dei 30 geni attualmente associati a variazioni dei livelli di lipidi possono anche presentare degli alleli rari che sono associati a forme Mendeliane di dislipidemia (ABCA1, PCSKA9, LDLR): geni con varianti comuni associate ad effetti lievi possono anche portare varianti rare associate a forti effetti
Geni & Alzheimer disease
178 mutazioni diverse in 393 famiglie
[associato a demenza frontotemporale]
Diverse malattie diversi modelli
L'architettura allelica (numero, tipo, effetto, frequenza) potrebbe essere diversa nei diversi fenotipi: Age-related macular degeneration: numero
ridotto di varianti comuni con un forte effetto (OR > 2)
Crohn's disease: numero abbondante di varianti comuni con un lieve effetto (OR << 2; e molto rimane ancora da identificare)
Il numero delle varianti comuni identificate aumenta con l'aumentare delle dimensioni del campione analizzato.
VARIANTI GENETICHE ED EFFETTO
Nature 461, 747-753 (8 October 2009)
OddsRatio
SNP utilizzati nei GWASVarianti identificate tramite sequenziamento
HAPMAP 3 & varianti rare
Dal GWAS al Resequencing
La genetica umana si interessa di identificare e caratterizzare le varianti genetiche che influenzano il fenotipo (spesso si tratta di patologie).
È probabile che nel prossimo futuro questi studi saranno condotti esaminando le relazioni il fenotipo di interesse e l'intera sequenza genomica (o l'esoma, tutti gli esoni) di molti individui.
Progetto 1000 genomi : perchè?
Malgrado i recenti successi nell'identificazione di geni di suscettibilità nelle malattie complesse, molto del rischio dovuto ai fattori ereditari rimane non spiegato (=da identificare).
La conoscenza relativa alle varianti genetiche è ancora limitata in relazione sia ai tipi di varianti e alla loro frequenza, sia alle differenze tra le popolazioni
Gli studi recenti hanno generalmente studiato le varianti più comuni (MAF>0.05) sebbene sia noto che anche le varianti siano fattori di rischio
Il progetto 1000 Genomi
Caratterizzazione accurata delle variazioni di sequenza del genoma umano
Per studiare la relazione tra il genotipo e il fenotipo
1000GP: I NUMERI (ottobre 2010)
179 individui (4 popolazioni): bassa copertura (2-6x)
697 individui: esoma (>50x, 8.140 esoni di 904 geni, 1Mb, 7 popolazioni)
Trios: 2 famiglie (6 individui) alta copertura (~42x)
15M SNP, 1M Ins/Del, 20K varianti strutturali
Ogni individuo è in media portatore di:- 250-300 varianti loss-of-function in geni noti- 50-100 varianti associate a malattie ereditarie
10-8 basi per generazione: tasso di mutazione dovuta alla sostituzione di una base
In totale: 4.9 tera-basi di sequenza
Progetti Pilota del 1000GP
Nature 467, 1061–1073 (2010)
Varianti genetiche (1000GP)
Imputation & Meta Analyses
I GWAS hanno portato i ricercatori a scambiare e combinare i dati genetici da diversi studi per scoprire nuovi geni di suscettibilità per le malattie complesse.
Per poter combinare i dati è spesso necessario che gli studi GWA siano stati condotti utilizzando gli stessi SNP e questo non è spesso vero. Tramite tecniche di IMPUTING è possibili cercare di stimare i genotipi per i marcatori non utilizzati di certi studi.e condurre su questi l'analisi di associazione
I risultati dei diversi studi possono essere poi combinati assieme (SNP per SNP) tramite studi di meta-analisi
GENOTYPE IMPUTATION
Sempre più essenziale negli studi GWA. Permette di valutare l'associazione del fenotipo con
marcatori genetici non direttamente caratterizzati nello studio.
Utile per poter rendere paragonabili studi GWA condotti utilizzando piattaforme che utilizzano diversi set di SNP.
GENOTYPE IMPUTATION
Poiché gli studi GWA sono stati condotti utilizzando piattaforme diverse (che differiscono per il numero per gli SNP utilizzati) si è reso necessario cercare di uniformare le informazioni provenienti dalle diverse piattaforme utilizzando una procedura di imputing: stimare il genotipo di ogni individuo per un determinato marcatore non caratterizzato, sfruttando le informazioni dei marcatori caratterizzati e vicini.
GENOTYPE IMPUTATION
Annu. Rev. Genomics Hum. Genet. 2009
In ROSSO: SNP genotipizzata in tutti gli individuiIn NERO: SNP genotipizzate nella I e II generazione
GENOTYPE IMPUTATION
Annu. Rev. Genomics Hum. Genet. 2009
GENOTYPE IMPUTATION
Annu. Rev. Genomics Hum. Genet. 2009
Imputing and Association
Possibili piattaforme da utilizzare
Imputing
Nature Genetics 40, 161 - 169 (2008)
Associazione & imputing: risultati
Suggerito come associato tramite imputing e poi confermato tramite genotipizzazione
Correlazione tra SNP reale ed 'imputato'
120 cromosomi CEU
410 cromosomi CEU + TSI
MAF<0.5% (RARI)
MAF<0.5 -5%
Meta Analisi dei GWAS
Le meta-analisi dei GWAS hanno lo scopo di combinare il supporto statistico dei diversi GWAS per caratterizzare l'associazione genotipo-fenotipo
Tramite le meta-analisi è possibile identificare nuove associaziono non riportati dai singoli studi e determinare con maggior precisione l'effetto del fattore genetico sul fenotipo
Meta-Analisi per i loci identificati associati a BMD
Nature Genetics 41, 1199 - 1206 (2009)
Acido Urico – Meta analisi
14 Studi
Acido Urico – Meta analisi
Acido Urico – Meta analisi
Geni & livelli dei lipidi
a) Il locus è una variante funzionale: l'associazione è causale
Variante funzionale -> Malattia
b) Il locus è un linkage disequilibrium con una variante funzionale:
Marcatore -> Variante funzionale -> Malattia
c) L'associazione è dovuta a confondenti (stratificazione del campione)
Marcatore -> Stratificazione -> [[ Variante funzionale -> Malattia ]]
Ragioni per una associazione genetica
Riduzione della complessità del fattore genetico Negli studi GWAS ogni singolo individuo viene
caratterizzato per centinaia di migliaia di SNP. Può essere necessario e utile cercare di sintetizzare l'informazione (a volte ridondante).
Utilizzando una tecnica per la semplificazione dei dati (analisi delle componenti principali - PCA) è possibile ridurre il numero delle variabili in studio (SNP da analisi GW) sintetizzandole in un numero ridotto di nuove variabili dette componenti principali (CP).
La riduzione della complessità avviene analizzando le CP.
E' possibile poi graficare gli individui in accordo con il numero e i valori valori delle diverse CP: gli individui simili si troveranno nella stessa regione del grafico.
GWA & Variabilità tra popolazioni
YRI
CEU
JPT
CHB
EJHG 2008, 16:1413-1429
GWA & Variabilità tra popolazioni
La I componente principale (asse Y) è suff a formare 3 gruppi che identificano correttamente CUE, YRI e CHB+ JPT
I CHB e i JPT risultano molto simili (ecco perchè HAPMAP li tratta come un unico gruppo)
Gli individui della popolazione presa in esame (=European, segnati in rosso) si sovrappongono con gli individui CEU (segnati in verse) : gli European sono molto più simili ai CEU rispettoAi CHB, JPT e YRI (popolazioni di riferimento di HAPMAP)
YRI
CEU
JPT
CHB
EJHG 2008, 16:1413-1429
Popolazioni Europee & diversità
EJHG 2008, 16:1413-1429
Popolazioni Europee di controllo
Si stanno caratterizzando migliaia di individui da popolazioni di tutto il mondo. Queste popolazioni di controllo potranno essere utilizzare per futuri studi di associazione caso/controllo permettendo ai ricercatori di utilizzare la popolazione di controllo più simile alla popolazione degli individui affetti.
In questo modo si avrà il doppio vantaggio di non dover caratterizzare nuovamente una popolazione di controllo (vantaggio economico) per il proprio studio e di utilizzare i controlli più opportuni (simili ai casi per il background genetico – vantaggio statistico)
Popolazioni di controllo