genotypic data: concepts and meanings solving biological problems that require math,2012
TRANSCRIPT
![Page 1: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/1.jpg)
Genotypic data: concepts and meanings
Solving biological problems that require math,2012
![Page 2: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/2.jpg)
![Page 3: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/3.jpg)
ATTGCAATCCGTGG...ATCGAGCCA…TACGATTGCACGCCG…
ATTGCAAGCCGTGG...ATCTAGCCA…TACGATTGCAAGCCG…
ATTGCAAGCCGTGG...ATCTAGCCA…TACGATTGCAAGCCG…
ATTGCAATCCGTGG...ATCGAGCCA…TACGATTGCACGCCG…
ATTGCAAGCCGTGG...ATCTAGCCA…TACGATTGCAAGCCG…
SNPs (Single Nucleotide Polymorphisms)
![Page 4: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/4.jpg)
SNP array technology
![Page 5: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/5.jpg)
Intensity of Allele G
Inte
nsi
ty o
f A
llele
A
![Page 6: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/6.jpg)
Some Genotypes are missing at all …
![Page 7: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/7.jpg)
… but are imputed with different uncertainties
![Page 8: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/8.jpg)
![Page 9: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/9.jpg)
Call rate:
Pour chaque échantillon, le ratio entre le nombre de genotypes "called" (au dessus du seuil de détection) sur le nombre total de SNPs.
Call rate= nombre de SNPs étant soit AA, BB ou AB sur le nombre total de SNPs
SNPs avec un call rate < 0.9 sont généralement supprimés de l'analyse
![Page 10: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/10.jpg)
![Page 11: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/11.jpg)
MAF: minor allele frequency
La fréquence allélique est une mesure de la fréquence relative d'un allèle à un locus précis dans une population. Habituellement, on l'exprime comme une proportion ou un pourcentage.
f(AA), f(Aa) et f(aa) : fréquences des trois génotypes à un locus
p =Fréquence de l'allèle A
q =Fréquence de l'allèle a
p+q = f(AA) + f(Aa) + f(aa) =1
![Page 12: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/12.jpg)
Hardy–Weinberg equilibrium :HWE
Une théorie qui postule qu'il y a un équilibre de la fréquence des allèles et des génotypes au cours des génération ( les fréquences restent constantes)
Si équilibre : La loi de distribution génotypique est donc : p² + q² + 2 pq = 1
Quelques hypothèses pour que l'équilibre existe: •La population est de taille infinie •Espèces diploïde et reproduction sexuée •La Panmixie (croisements aléatoires entre individus) généralisée recouvre : Équiprobabilité des gamètes : pangamie
Rencontre des gamètes au hasard ou formation aléatoire des couple:Panmixie•Absence de mutation sur les allèles considérés
•Absence de sélection d'individus •Les générations ne se chevauchent pas
![Page 13: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/13.jpg)
Deviation de l'équilibre?
L'écart par rapport à la loi de Hardy-Weinberg est estimé grâce au Test du χ² de Pearson, en comparant:
• la structure des fréquences génotypiques obtenues à partir des données observées
• aux fréquences calculées selon la loi de Hardy-Weinberg.
SNPs avec un pvalue de HWE < 1E-6 sont généralement supprimés de l'analyse car cela signifie qu'on rejette l'hypothèse "Dans la population, les fréquences génotypiques et alléliques sont constantes (en équilibre)"
![Page 14: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/14.jpg)
Comptage des génotypes observés (O), déduction des fréquences alléliques
p q = 1 − pet
Calcul des génotypes attendus (E) si HWE
Test du χ² :
χ²
Test à n-1 degré de liberté (ddl), où n est le nombre de classes (allèles).Le seuil de signification à 5% du χ², pour 1 ddl, est à 3.84. Si la valeur du χ² obtenue < à 3.84, l'hypothèse nulle est non rejetée donc la population étudiée suit la loi de Hardy-Weinberg
![Page 15: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/15.jpg)
LD si la fréquence des gamètes porteurs des allèles de deux locus différents A et B est différente du produit des fréquences des allèles c'est-à-dire s'il y a association préférentielle entre deux allèles.
Linkage Desequilibrium (LD): Déséquilibre de Liaison
![Page 16: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/16.jpg)
![Page 17: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/17.jpg)
![Page 18: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/18.jpg)
Linkage Disequilibrium
Markers close together on chromosomes are often transmitted together, yielding a non-zero correlation between the alleles.
Marker 1 2 3 n
LD
D
![Page 19: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/19.jpg)
Coefficient de correlation
où
Deux vecteurs
![Page 20: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/20.jpg)
Correction de tests multiples• De nombreux tests sont effectués • Contrôle la probabilité d’avoir un faux positif par
chance • Bonferroni correction (diminue le seuil de
significativité d’1 test pour que l’ensemble des tests ait un seuil < à alpha ): – seuil alpha pour 1 test: 0.05– Seuil alpha pour plusieurs tests (n): alpha/n
• Augmente la probabilité d’avoir des faux négatifs
![Page 21: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/21.jpg)
Analyse en composantes principales (ACP)
• L’ACP consiste à transformer des variables liées entre elles (dites "corrélées" en statistique) en nouvelles variables indépendantes les unes des autres (donc "non corrélées"): "composantes principales", ou axes.
• Permet de réduire l'information en un nombre de composantes plus limité que le nombre initial de variables.
• Approche géométrique (représentation des variables dans un nouvel espace géométrique selon des directions d'inertie maximale)
• Approche statistique (recherche d'axes indépendants expliquant au mieux la variabilité - la variance - des données).
![Page 22: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/22.jpg)
Population stratification: PCA (ACP)
![Page 23: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/23.jpg)
Analysis of Genotypes only
Principle Component Analysis reveals SNP-vectors explaining largest variation in the data
![Page 24: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/24.jpg)
Example: 2PCs for 3d-data
http://ordination.okstate.edu/PCA.htm
Raw data points: {a, …, z}
![Page 25: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/25.jpg)
Example: 2PCs for 3d-data
http://ordination.okstate.edu/PCA.htm
Normalized data points: zero mean (& unit std)!
![Page 26: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/26.jpg)
Example: 2PCs for 3d-data
http://ordination.okstate.edu/PCA.htm
Identification of axes with the most variance
Most variance is along PCA1
The direction of most variance
perpendicular to PCA1 defines
PCA2
![Page 27: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/27.jpg)
Ethnic groups cluster according to geographic distances
PC1 PC1
PC
2P
C2
![Page 28: Genotypic data: concepts and meanings Solving biological problems that require math,2012](https://reader035.vdocuments.us/reader035/viewer/2022070309/551d9da2497959293b8d20d3/html5/thumbnails/28.jpg)
PCA of POPRES cohort