progetto 1000 genomi, imputing,...

CORSO INTEGRATO DI GENETICA

a.a. 2010-2011Dr. Giovanni Malerba, [email protected]

18-11-2010

Progetto 1000 Genomi,Imputing, Meta-analisi

http://www.genome.gov/gwastudies/

Nature 447, 661-678(7 June 2007)

Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls

GWAS: Altezza

http://www.ncbi.nlm.nih.gov/pubmed/GWAS: Altezza

Representation of the connections between SNPs and corresponding genes for the 42 SNPs with GRAIL (p < 0.01). Thicker and redder lines imply stronger literature-based connectivity. [doi:10.1038/nature09410]

PATHWAYSPotenziali target

L'EREDITABILITÀ MANCANTE

I loci individuati dai GWAS spiegano in genere una ridotta quantità della variabilità legata alla componente genetica (ereditabilità; < ~20%)

La parte mancante viene scherzosamente definita la MATERIA OSCURA dei GWAS perchè si è sicuri che esista, si vede il suo effetto, ma NON si riesce a vederla.

Nota: L'ereditabilità dei caratteri quantitativi (h^2: prop di varianza attribuibile ai fattori genetici addittivi) è tipicamente stimata dagli studi familiari e quindi il suo valore potrebbe variare nei diversi ambienti

L'eredità mancante dei GWAS

LIPIDI: geni con varianti comuni e con varianti rare

Il rischio determinato tramite gli SNP potrebbe sottostimare il rischio associato alle vere varianti causali

Es: 11 dei 30 geni attualmente associati a variazioni dei livelli di lipidi possono anche presentare degli alleli rari che sono associati a forme Mendeliane di dislipidemia (ABCA1, PCSKA9, LDLR): geni con varianti comuni associate ad effetti lievi possono anche portare varianti rare associate a forti effetti

Geni & Alzheimer disease

178 mutazioni diverse in 393 famiglie

[associato a demenza frontotemporale]

Diverse malattie diversi modelli

L'architettura allelica (numero, tipo, effetto, frequenza) potrebbe essere diversa nei diversi fenotipi: Age-related macular degeneration: numero

ridotto di varianti comuni con un forte effetto (OR > 2)

Crohn's disease: numero abbondante di varianti comuni con un lieve effetto (OR << 2; e molto rimane ancora da identificare)

Il numero delle varianti comuni identificate aumenta con l'aumentare delle dimensioni del campione analizzato.

VARIANTI GENETICHE ED EFFETTO

Nature 461, 747-753 (8 October 2009)

OddsRatio

SNP utilizzati nei GWASVarianti identificate tramite sequenziamento

HAPMAP 3 & varianti rare

Dal GWAS al Resequencing

La genetica umana si interessa di identificare e caratterizzare le varianti genetiche che influenzano il fenotipo (spesso si tratta di patologie).

È probabile che nel prossimo futuro questi studi saranno condotti esaminando le relazioni il fenotipo di interesse e l'intera sequenza genomica (o l'esoma, tutti gli esoni) di molti individui.

Progetto 1000 genomi : perchè?

Malgrado i recenti successi nell'identificazione di geni di suscettibilità nelle malattie complesse, molto del rischio dovuto ai fattori ereditari rimane non spiegato (=da identificare).

La conoscenza relativa alle varianti genetiche è ancora limitata in relazione sia ai tipi di varianti e alla loro frequenza, sia alle differenze tra le popolazioni

Gli studi recenti hanno generalmente studiato le varianti più comuni (MAF>0.05) sebbene sia noto che anche le varianti siano fattori di rischio

Il progetto 1000 Genomi

Caratterizzazione accurata delle variazioni di sequenza del genoma umano

Per studiare la relazione tra il genotipo e il fenotipo

1000GP: I NUMERI (ottobre 2010)

179 individui (4 popolazioni): bassa copertura (2-6x)

697 individui: esoma (>50x, 8.140 esoni di 904 geni, 1Mb, 7 popolazioni)

Trios: 2 famiglie (6 individui) alta copertura (~42x)

15M SNP, 1M Ins/Del, 20K varianti strutturali

Ogni individuo è in media portatore di:- 250-300 varianti loss-of-function in geni noti- 50-100 varianti associate a malattie ereditarie

10-8 basi per generazione: tasso di mutazione dovuta alla sostituzione di una base

In totale: 4.9 tera-basi di sequenza

Progetti Pilota del 1000GP

Nature 467, 1061–1073 (2010)

Varianti genetiche (1000GP)

Imputation & Meta Analyses

I GWAS hanno portato i ricercatori a scambiare e combinare i dati genetici da diversi studi per scoprire nuovi geni di suscettibilità per le malattie complesse.

Per poter combinare i dati è spesso necessario che gli studi GWA siano stati condotti utilizzando gli stessi SNP e questo non è spesso vero. Tramite tecniche di IMPUTING è possibili cercare di stimare i genotipi per i marcatori non utilizzati di certi studi.e condurre su questi l'analisi di associazione

I risultati dei diversi studi possono essere poi combinati assieme (SNP per SNP) tramite studi di meta-analisi

GENOTYPE IMPUTATION

Sempre più essenziale negli studi GWA. Permette di valutare l'associazione del fenotipo con

marcatori genetici non direttamente caratterizzati nello studio.

Utile per poter rendere paragonabili studi GWA condotti utilizzando piattaforme che utilizzano diversi set di SNP.

GENOTYPE IMPUTATION

Poiché gli studi GWA sono stati condotti utilizzando piattaforme diverse (che differiscono per il numero per gli SNP utilizzati) si è reso necessario cercare di uniformare le informazioni provenienti dalle diverse piattaforme utilizzando una procedura di imputing: stimare il genotipo di ogni individuo per un determinato marcatore non caratterizzato, sfruttando le informazioni dei marcatori caratterizzati e vicini.

GENOTYPE IMPUTATION

Annu. Rev. Genomics Hum. Genet. 2009

In ROSSO: SNP genotipizzata in tutti gli individuiIn NERO: SNP genotipizzate nella I e II generazione

GENOTYPE IMPUTATION

Annu. Rev. Genomics Hum. Genet. 2009

Imputing and Association

Possibili piattaforme da utilizzare

Imputing

Nature Genetics 40, 161 - 169 (2008)

Associazione & imputing: risultati

Suggerito come associato tramite imputing e poi confermato tramite genotipizzazione

Correlazione tra SNP reale ed 'imputato'

120 cromosomi CEU

410 cromosomi CEU + TSI

MAF<0.5% (RARI)

MAF<0.5 -5%

Meta Analisi dei GWAS

Le meta-analisi dei GWAS hanno lo scopo di combinare il supporto statistico dei diversi GWAS per caratterizzare l'associazione genotipo-fenotipo

Tramite le meta-analisi è possibile identificare nuove associaziono non riportati dai singoli studi e determinare con maggior precisione l'effetto del fattore genetico sul fenotipo

Meta-Analisi per i loci identificati associati a BMD

Nature Genetics 41, 1199 - 1206 (2009)

Acido Urico – Meta analisi

14 Studi

Acido Urico – Meta analisi

Geni & livelli dei lipidi

a) Il locus è una variante funzionale: l'associazione è causale

Variante funzionale -> Malattia

b) Il locus è un linkage disequilibrium con una variante funzionale:

Marcatore -> Variante funzionale -> Malattia

c) L'associazione è dovuta a confondenti (stratificazione del campione)

Marcatore -> Stratificazione -> [[ Variante funzionale -> Malattia ]]

Ragioni per una associazione genetica

Riduzione della complessità del fattore genetico Negli studi GWAS ogni singolo individuo viene

caratterizzato per centinaia di migliaia di SNP. Può essere necessario e utile cercare di sintetizzare l'informazione (a volte ridondante).

Utilizzando una tecnica per la semplificazione dei dati (analisi delle componenti principali - PCA) è possibile ridurre il numero delle variabili in studio (SNP da analisi GW) sintetizzandole in un numero ridotto di nuove variabili dette componenti principali (CP).

La riduzione della complessità avviene analizzando le CP.

E' possibile poi graficare gli individui in accordo con il numero e i valori valori delle diverse CP: gli individui simili si troveranno nella stessa regione del grafico.

GWA & Variabilità tra popolazioni

YRI

CEU

JPT

CHB

EJHG 2008, 16:1413-1429

GWA & Variabilità tra popolazioni

La I componente principale (asse Y) è suff a formare 3 gruppi che identificano correttamente CUE, YRI e CHB+ JPT

I CHB e i JPT risultano molto simili (ecco perchè HAPMAP li tratta come un unico gruppo)

Gli individui della popolazione presa in esame (=European, segnati in rosso) si sovrappongono con gli individui CEU (segnati in verse) : gli European sono molto più simili ai CEU rispettoAi CHB, JPT e YRI (popolazioni di riferimento di HAPMAP)

YRI

CEU

JPT

CHB

EJHG 2008, 16:1413-1429

Popolazioni Europee & diversità

EJHG 2008, 16:1413-1429

Popolazioni Europee di controllo

Si stanno caratterizzando migliaia di individui da popolazioni di tutto il mondo. Queste popolazioni di controllo potranno essere utilizzare per futuri studi di associazione caso/controllo permettendo ai ricercatori di utilizzare la popolazione di controllo più simile alla popolazione degli individui affetti.

In questo modo si avrà il doppio vantaggio di non dover caratterizzare nuovamente una popolazione di controllo (vantaggio economico) per il proprio studio e di utilizzare i controlli più opportuni (simili ai casi per il background genetico – vantaggio statistico)

Popolazioni di controllo

progetto 1000 genomi, imputing,...

Documents