mac osxで始める 中規模snps解析 · 自動化しなくても出来る? •~ 200...
TRANSCRIPT
2
とりあえず伝えたいこと
←とか読んで、バイオインフォを使い始めました!
「初心者でもわかる!バイオインフォマティクス入門-やさしいUNIX操作から遺伝子・タンパク質解析まで」「すぐわかるPerl」「The R tips」
3
研究目的
• 放射線治療後の有害反応発症と遺伝的因子との関連を明らかにすること
=> SNPと有害反応との相関を調べる
4
実験の流れ
マイクロアレイ、文献調査から候補遺伝子を選択
候補遺伝子のSNPタイピング
SNP-相関解析
遺伝子ごとにwetな実験へ siRNA、レポーターアッセイな部分
今日話す部分
予算と人手な部分
5
自動化しなくても出来る?
• ~ 200 SNPs程度であれば、市販のソフトウェアを使うのも選択肢– 買えば使えるのは楽– 親切で多機能
• 欠点は融通がきかないこと‥?– 望むような解析法(機能)が搭載されてない– 大量に出て来た結果をエクセルで眺めるのが辛い‥
=> ツールを利用したり、結果を整形する程度であれば、わりと簡単に入門出来た
6
実験フローチャート
候補遺伝子領域での - 連鎖不平衡 (LD) 地図作製 - tagSNPの選定
SNP相関検定
PAHSER (haplo.stats)
dbSNP / jSNPR (glm, fisher.test)UCSC Genome BrowserBLAT
tagSNPとLD情報を踏まえて - haplotype頻度推定 - haplotype相関検定
HapMapLDpairsGOLDldSelect
7
今日話すこと
• こんな感じでSNP統計解析をしています– [SNP] SNPsのアノテーション– [R] SNPと有害反応の相関解析?– [UCSC] SNP○○はどこに在る?– [HapMap] HapMapのデータは?– [GOLD] キレイな図が欲しい!と言われたら?– [R] ハプロタイプと有害反応の相関解析?
8
[SNP] dbSNP
• SNPのアノテーションを得るのに活用– ftp://ftp.ncbi.nih.gov/snp/human/ASN1_flat/ からSNPと遺伝子の対応づけ、アミノ酸置換、位置情報– 376,246 rsSNPが収録されている(build 125)
http://www.ncbi.nlm.nih.gov/projects/SNP/
9
[SNP] JSNP
• 日本人での多型頻度を知るのに活用– ftp://ftp.hgc.jp/pub/hgc/db/snp/ にフラットファイルで公開– Rel.25 (September 7, 2005) では84,615 SNPの多型頻度情報がある– 日本人の多型頻度が不明のSNPは、結果にがっかりすることも(PCRがボウズだった感覚に近い…)
http://snp.ims.u-tokyo.ac.jp/index_ja.html
10
[SNP] dbSNP / jSNP
<- dbSNPから取得
<- jSNPから取得
ds_flat_ch11.flat
AlleleFreq050907.txt
11
[SNP] dbSNP / jSNP
PerlやRubyで、結合させることで候補SNP選択などに活用していく
12
[R] SNP相関検定
• 臨床情報チームとSNPタイピングチームから来たデータを照らし合わせて検討=> 有害反応のGradeとSNPのgenotypeの頻度を集計する*このスライドでの全タイピングデータはプレゼン用に生成していて、実際のものではありません
Sample_ID rg000489 rg000495 rg000518 rg000521 rg003239 rg003246
2552 C G C C T C2554 CT G CG TC T C2555 CT G CG TC T C2556 CT G CG TC T C2557 C GC C C T T2573 C G C C T C2574 C GC C C T CT2575 CT G CG TC TA C2577 CT G CG C TA CT2578 C G C C T C2580 CT G CG C TA C
Sample_ID 皮膚Grade
486 1
495 1
496 2
607 1
622 0
623 2
624 1
632 0
634 2
635 2
13
多型マーカー rg7418(A または G)のタイピング
GG
AA
AA GG
GA
GGAAGG
GAAA
有害反応が現れなかった人
有害反応が現れた人
GG GA AA
25人25人
10人10人
15人15人
多型マーカー rg5201(C または T)のタイピング
TTCT
CC
TT
CT
TTTT
TTTT
CT
CTCC TT
5人 10人 85人65人 20人 15人
有害反応が現れなかった人、 現れた人の比は同じ
有害反応が現れなかった人、 現れた人の比は異なる
14
[R] SNP相関検定
• 各SNPのgenotypeの頻度をcase/control群ごとに集計=> RでFisher’s exact testにより頻度の偏りを検定
rg009558 Bre_early genotype
grade2+3(AA) grade0+1(AA) grade2+3(AA/AG)grade0+1(AA/AG)24 69 20 71
rg007769 Bre_early genotype
grade2+3(CC) grade0+1(CC) grade2+3(CT/TT) grade0+1(CT/TT)14 81 29 59
> y [gr2,3] [gr0,1][CC] 14 81[CT,TT] 29 59> fisher.test(y)Fisher's Exact Test..data: yp-value = 0.004982
% R --vanilla --slave < loopfisher2.R > test.out
for (i in 1:3000) { if(i %% 3 == 0){ x <- scan("./table.data", skip=i-1, nlines=1) y <- matrix(x,ncol=2,byrow=T) print(fisher.test(y)) }}
<- "集計した" table.data
15
[R] SNP相関検定 (glm)
> summary(glm(skin_erg007769a,family=binomial,data))Call:glm(formula = skin_e rg007769a, family = binomial, data = data)Coefficients: Estimate Std. Error z value Pr(>¦z¦)rg007769a -1.0452 0.3677 -2.842 0.00448 **• 一旦、雛形が出来れば後はそれを少し改良していくだけ(楽)
Sample_ID skin_e rg007769 rg007769a
2648 0 C 12949 0 C 13250 1 CT 03551 0 CT 03852 0 C 14153 1 CT 04454 0 CT 04755 0 T 0
% R > data<-read.delim("./test.data")> attach(data)> ftable(rg007769a,skin_e) skin_e 0 1rg007769a 0 57 24 1 78 14
<- test.data
16
[R] Rについて
• 統計計算を行うツール– MacでもWindowsでもLinuxでも– 日本語の書籍が増えて来た– RjpWiki(http://www.okada.jp.org/RWiki/)などweb上での情報も豊富
– 単純な繰り返し計算には持ってこい!
17
• UCSC Genome Browserを
[UCSC] SNP ○○はどこに在る?
18
[UCSC] SNP ○○はどこに在る?
• 簡易ビューワーとして使っています
19
[UCSC] 表示の仕組み
• カスタムトラック機能– http://genome.ucsc.edu/goldenPath/help/customTrack.html
(カスタムトラック機能の説明ページ)– カスタムトラックは書き方が幾つかありますが、ここではGFFという方式で書いてあります– “_”を入れているのはPDFからコピーするとタブがスペースになるため講じた対策です、タブに置換し
てから試されて下さい
browser position chr19:53200000-53204000track name="example" description="Example" color=255,0,0chr19_._variation_53201000_53201000_._._._SNP1chr19_._variation_53202000_53202000_._._._SNP2chr19_._variation_53203000_53203000_._._._SNP3
<-(注) 試される場合は“_”をタブに置換してから、使って下さい
20
[UCSC] 表示の手順1
• http://genome.ucsc.edu/cgi-bin/hgGatewayまたは• http://genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg17
にアクセスし、add your own custom tracksをクリック
21
[UCSC] 表示の手順2
• ペーストしてsubmitするだけ
22
[UCSC] 表示の手順3
browser position chr19:53200000-53204000track name="example" description="Example" color=255,0,0chr19 . variation 53201000 53201000 . . . SNP1chr19 . variation 53202000 53202000 . . . SNP2chr19 . variation 53203000 53203000 . . . SNP3
23
[UCSC] Table Browser
• UCSC Genome Browser のデータが収まっているSQLのテーブル内容を見ることが可能
http://genome.ucsc.edu/cgi-bin/hgTables?command=start
24
[UCSC] Table Browser
• refFlat– 転写開始点やエキソン、イントロンの位置情報などが得られる
– 他にも役立つテーブル沢山あります :)
25
• SNPの位置はBLATでマッピング– シークエンス等で独自に決めたSNPが混ざっているから
[UCSC] BLAT
BLAThttp://www.soe.ucsc.edu/kent/exe/osX/ からblatSuite.32.zipをダウンロード (OSXの実行ファイル)ゲノムシークエンスhttp://hgdownload.cse.ucsc.edu/goldenPath/hg17/chromosomes/からchr1.fa.gz など必要な染色体のfastaファイルをダウンロード
26
[UCSC] BLAT
[mkohda@G5]% cd Desktop/blatSuite.32¥ Folder/[mkohda@G5]% ./blat chr20.fa your_query.fas result.pslLoaded 62435964 letters in 1 sequencesSearched 482 bases in 2 sequences[mkohda@G5]% exit
27
[UCSC] BLAT
• SNP周辺シークエンスがヒット=> SNPの位置を計算してカスタムトラック化する
match mis- rep. N's Q gap Q gap T gap T gap strand Q Q Q Q T T T T match match count bases count bases name size start end name size start end---------------------------------------------------------------------------------------------------------------------------------------------------------------241 0 0 0 0 0 0 0 + your_query1 241 0 241 chr20 62435964 55370652 55370893241 0 0 0 0 0 0 0 + your_query2 241 0 241 chr20 62435964 55387233 55387474
result.psl
28
実験フローチャート
候補遺伝子領域での - 連鎖不平衡 (LD) 地図作製 - tagSNPの選定
SNP相関検定
PAHSER (haplo.stats)
dbSNP / jSNPR (glm, fisher.test)UCSC Genome BrowserBLAT
tagSNPとLD情報を踏まえて - haplotype頻度推定 - haplotype相関検定
HapMapLDpairsGOLDldSelect
29
• 日本人を含めた4民族のSNPデータを公開=> SNP同士の連鎖不平衡状態を調べることでタイピング範囲を決められる
[HapMap] HapMap project
http://www.hapmap.org/index.html.en
30
[HapMap] Why?
• 相関のあったSNPが本命とは限らない-> 近傍マーカーである可能性-> 上のケースだと、どちらの遺伝子のどの変異が作用するのか不明
31
[HapMap] 連鎖不平衡領域を調べる
• http://www.hapmap.org/genotypes/2005-06_16c.1_phaseI/full/non-redundant/
からgenotypes_chr10_JPT.txt.gzなどをダウンロード
32
[HapMap]連鎖不平衡領域を調べる
• genotypes_chr11_JPT.atxt.gz– rsSNPのid、アレル、位置情報、結果などが記載されている
33
• ダウンロードしたgenotypes_chr11_JPT.txtから興味のある遺伝子領域を取り出し、Haploviewで読み込む
[HapMap] Haploviewによる可視化
http://www.broad.mit.edu/mpg/haploview/
34
• スクリプトだけで連鎖不平衡地図を作成する– http://www.smd.qmul.ac.uk/statgen/software/dcurtis/gcprog18.zip– ざっと眺めるのに便利(Excelで眺める)– 論文用に作図する時は、この後のGOLDを使う
LDpairs
35
GOLDGraphical Overview of Linkage Disequilibrium.
• 発表用にキレイな図が欲しいですよね(?)
http://www.sph.umich.edu/csg/abecasis/GOLD/
ldmax - SNPタイピングデータから連鎖不平衡係数を算出GOLD - ldmaxの結果を読み込んで可視化Windows上で動作
36
• 振る舞いの同じSNPをまとめて、1グループ化する(=> コストと計算量削減)http://droog.gs.washington.edu/ldSelect.html
ldSelect.pl
Sample_Name rg11705 rg07816 rg12097
Sample0001 A A CSample0002 AC AC CSample0003 A A CTSample0004 A A CSample0005 A A CTSample0006 A A CTSample0007 A A CSample0008 A A CTSample0009 A A CTSample0010 A A CTSample0011 A A C
rg11705とrg07816は同じ挙動
=> 1つをタイピングすれば事足りる
37
• タイピングデータを整形し
ldSelect.pl
Bin 1 total_sites: 6 average_minor_allele_frequency: 10%Bin 1 TagSnps: rg107816 rg111705Bin 1 other_snps: ..Bin 4 total_sites: 1 average_minor_allele_frequency: 28%Bin 4 TagSnps: rg112097 Bin 4 other_snps:
% ldselect.pl -pb typingdata.input
SNP_ID Sample_ID 1 2
99011705 121 A A99011705 122 A C
... ... ... ...99011705 1963 A A99007816 121 A A99007816 122 A C
38
実験フローチャート
候補遺伝子領域での - 連鎖不平衡 (LD) 地図作製 - tagSNPの選定
SNP相関検定
PAHSER (haplo.stats)
dbSNP / jSNPR (glm, fisher.test)UCSC Genome BrowserBLAT
tagSNPとLD情報を踏まえて - haplotype頻度推定 - haplotype相関検定
HapMapLDpairsGOLDldSelect
39
ハプロタイプは大混乱‥
• A comprehensive literature review ofhaplotyping software and methods for usewith unrelated individualsSalem, Rany M.1; Wessel, Jennifer1; Schork, Nicholas J.1Human Genomics, Volume 2, Number 1, March 2005, pp. 39-66(28)
– Forty-six haplotyping programs were identifiedand reviewed...
40
• 他のプログラムでは見かけない利点– ハプロタイプ推定と頻度差検定を1つのプログラム内で行える
– 有害反応とハプロタイプの相関関係に加えて、他の因子も同時に考慮出来る
R (haplo.stats)
ダウンロード(Rに組込む)http://cran.r-project.org/src/contrib/Descriptions/haplo.stats.htmlhttp://www.okada.jp.org/RWiki/index.php?haplo.statsから詳しく日本語情報が辿れる
41
まとめ、というか経験談
• ピペットマン持つのも、キーボード叩くのも大して違いはありません
• 各種ツールの利用法は最初の数歩を覚えれば、あとは似た感じです=> ノザンとサザンの違い程度(?)
42
謝辞
• Perlを教えてくれた石川敦子さん、タイピングデータと励ましをくれた菅智さん、ラボのみんな、そして快く承諾してくれた今井リーダーへ
• WEB、出版を通してバイオインフォを広めてくれた方達へ
感謝して、フィードバックしてみました