mac osxで始める 中規模snps解析 · 自動化しなくても出来る? •~ 200...

42
1 Mac OSXで始める 中規模SNPs解析 ゲノム情報利用ワークショップ2005 神田 将和 [email protected]

Upload: others

Post on 24-Jun-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

1

Mac OSXで始める中規模SNPs解析

ゲノム情報利用ワークショップ2005

神田 将和[email protected]

Page 2: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

2

とりあえず伝えたいこと

←とか読んで、バイオインフォを使い始めました!

「初心者でもわかる!バイオインフォマティクス入門-やさしいUNIX操作から遺伝子・タンパク質解析まで」「すぐわかるPerl」「The R tips」

Page 3: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

3

研究目的

• 放射線治療後の有害反応発症と遺伝的因子との関連を明らかにすること

=> SNPと有害反応との相関を調べる

Page 4: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

4

実験の流れ

マイクロアレイ、文献調査から候補遺伝子を選択

候補遺伝子のSNPタイピング

SNP-相関解析

遺伝子ごとにwetな実験へ siRNA、レポーターアッセイな部分

今日話す部分

予算と人手な部分

Page 5: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

5

自動化しなくても出来る?

• ~ 200 SNPs程度であれば、市販のソフトウェアを使うのも選択肢– 買えば使えるのは楽– 親切で多機能

• 欠点は融通がきかないこと‥?– 望むような解析法(機能)が搭載されてない– 大量に出て来た結果をエクセルで眺めるのが辛い‥

 => ツールを利用したり、結果を整形する程度であれば、わりと簡単に入門出来た

Page 6: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

6

実験フローチャート

候補遺伝子領域での - 連鎖不平衡 (LD) 地図作製 - tagSNPの選定

SNP相関検定

PAHSER (haplo.stats)

dbSNP / jSNPR (glm, fisher.test)UCSC Genome BrowserBLAT

tagSNPとLD情報を踏まえて - haplotype頻度推定 - haplotype相関検定

HapMapLDpairsGOLDldSelect

Page 7: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

7

今日話すこと

• こんな感じでSNP統計解析をしています– [SNP] SNPsのアノテーション– [R] SNPと有害反応の相関解析?– [UCSC] SNP○○はどこに在る?– [HapMap] HapMapのデータは?– [GOLD] キレイな図が欲しい!と言われたら?– [R] ハプロタイプと有害反応の相関解析?

Page 8: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

8

[SNP] dbSNP

• SNPのアノテーションを得るのに活用– ftp://ftp.ncbi.nih.gov/snp/human/ASN1_flat/ からSNPと遺伝子の対応づけ、アミノ酸置換、位置情報– 376,246 rsSNPが収録されている(build 125)

http://www.ncbi.nlm.nih.gov/projects/SNP/

Page 9: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

9

[SNP] JSNP

• 日本人での多型頻度を知るのに活用– ftp://ftp.hgc.jp/pub/hgc/db/snp/ にフラットファイルで公開– Rel.25 (September 7, 2005) では84,615 SNPの多型頻度情報がある– 日本人の多型頻度が不明のSNPは、結果にがっかりすることも(PCRがボウズだった感覚に近い…)

http://snp.ims.u-tokyo.ac.jp/index_ja.html

Page 10: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

10

[SNP] dbSNP / jSNP

<- dbSNPから取得

<- jSNPから取得

ds_flat_ch11.flat

AlleleFreq050907.txt

Page 11: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

11

[SNP] dbSNP / jSNP

PerlやRubyで、結合させることで候補SNP選択などに活用していく

Page 12: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

12

[R] SNP相関検定

• 臨床情報チームとSNPタイピングチームから来たデータを照らし合わせて検討=> 有害反応のGradeとSNPのgenotypeの頻度を集計する*このスライドでの全タイピングデータはプレゼン用に生成していて、実際のものではありません

Sample_ID rg000489 rg000495 rg000518 rg000521 rg003239 rg003246

2552 C G C C T C2554 CT G CG TC T C2555 CT G CG TC T C2556 CT G CG TC T C2557 C GC C C T T2573 C G C C T C2574 C GC C C T CT2575 CT G CG TC TA C2577 CT G CG C TA CT2578 C G C C T C2580 CT G CG C TA C

Sample_ID 皮膚Grade

486 1

495 1

496 2

607 1

622 0

623 2

624 1

632 0

634 2

635 2

Page 13: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

13

多型マーカー rg7418(A または G)のタイピング

GG

AA

AA GG

GA

GGAAGG

GAAA

有害反応が現れなかった人

有害反応が現れた人

GG GA AA

25人25人

10人10人

15人15人

多型マーカー rg5201(C または T)のタイピング

TTCT

CC

TT

CT

TTTT

TTTT

CT

CTCC TT

5人 10人 85人65人 20人 15人

有害反応が現れなかった人、   現れた人の比は同じ

有害反応が現れなかった人、   現れた人の比は異なる

Page 14: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

14

[R] SNP相関検定

• 各SNPのgenotypeの頻度をcase/control群ごとに集計=> RでFisher’s exact testにより頻度の偏りを検定

rg009558 Bre_early genotype

grade2+3(AA) grade0+1(AA) grade2+3(AA/AG)grade0+1(AA/AG)24 69 20 71

rg007769 Bre_early genotype

grade2+3(CC) grade0+1(CC) grade2+3(CT/TT) grade0+1(CT/TT)14 81 29 59

> y [gr2,3] [gr0,1][CC] 14 81[CT,TT] 29 59> fisher.test(y)Fisher's Exact Test..data: yp-value = 0.004982

% R --vanilla --slave < loopfisher2.R > test.out

for (i in 1:3000) { if(i %% 3 == 0){ x <- scan("./table.data", skip=i-1, nlines=1) y <- matrix(x,ncol=2,byrow=T) print(fisher.test(y)) }}

<- "集計した" table.data

Page 15: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

15

[R] SNP相関検定 (glm)

> summary(glm(skin_erg007769a,family=binomial,data))Call:glm(formula = skin_e rg007769a, family = binomial, data = data)Coefficients: Estimate Std. Error z value Pr(>¦z¦)rg007769a -1.0452 0.3677 -2.842 0.00448 **• 一旦、雛形が出来れば後はそれを少し改良していくだけ(楽)

Sample_ID skin_e rg007769 rg007769a

2648 0 C 12949 0 C 13250 1 CT 03551 0 CT 03852 0 C 14153 1 CT 04454 0 CT 04755 0 T 0

% R > data<-read.delim("./test.data")> attach(data)> ftable(rg007769a,skin_e) skin_e 0 1rg007769a 0 57 24 1 78 14

<- test.data

Page 16: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

16

[R] Rについて

• 統計計算を行うツール– MacでもWindowsでもLinuxでも– 日本語の書籍が増えて来た– RjpWiki(http://www.okada.jp.org/RWiki/)などweb上での情報も豊富

– 単純な繰り返し計算には持ってこい!

Page 17: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

17

• UCSC Genome Browserを

[UCSC] SNP ○○はどこに在る?

Page 18: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

18

[UCSC] SNP ○○はどこに在る?

• 簡易ビューワーとして使っています

Page 19: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

19

[UCSC] 表示の仕組み

• カスタムトラック機能– http://genome.ucsc.edu/goldenPath/help/customTrack.html

(カスタムトラック機能の説明ページ)– カスタムトラックは書き方が幾つかありますが、ここではGFFという方式で書いてあります– “_”を入れているのはPDFからコピーするとタブがスペースになるため講じた対策です、タブに置換し

てから試されて下さい

browser position chr19:53200000-53204000track name="example" description="Example" color=255,0,0chr19_._variation_53201000_53201000_._._._SNP1chr19_._variation_53202000_53202000_._._._SNP2chr19_._variation_53203000_53203000_._._._SNP3

<-(注) 試される場合は“_”をタブに置換してから、使って下さい

Page 20: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

20

[UCSC] 表示の手順1

• http://genome.ucsc.edu/cgi-bin/hgGatewayまたは• http://genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg17

にアクセスし、add your own custom tracksをクリック

Page 21: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

21

[UCSC] 表示の手順2

• ペーストしてsubmitするだけ

Page 22: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

22

[UCSC] 表示の手順3

browser position chr19:53200000-53204000track name="example" description="Example" color=255,0,0chr19 . variation 53201000 53201000 . . . SNP1chr19 . variation 53202000 53202000 . . . SNP2chr19 . variation 53203000 53203000 . . . SNP3

Page 23: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

23

[UCSC] Table Browser

• UCSC Genome Browser のデータが収まっているSQLのテーブル内容を見ることが可能

http://genome.ucsc.edu/cgi-bin/hgTables?command=start

Page 24: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

24

[UCSC] Table Browser

• refFlat– 転写開始点やエキソン、イントロンの位置情報などが得られる

– 他にも役立つテーブル沢山あります :)

Page 25: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

25

• SNPの位置はBLATでマッピング– シークエンス等で独自に決めたSNPが混ざっているから

[UCSC] BLAT

BLAThttp://www.soe.ucsc.edu/kent/exe/osX/ からblatSuite.32.zipをダウンロード (OSXの実行ファイル)ゲノムシークエンスhttp://hgdownload.cse.ucsc.edu/goldenPath/hg17/chromosomes/からchr1.fa.gz など必要な染色体のfastaファイルをダウンロード

Page 26: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

26

[UCSC] BLAT

[mkohda@G5]% cd Desktop/blatSuite.32¥ Folder/[mkohda@G5]% ./blat chr20.fa your_query.fas result.pslLoaded 62435964 letters in 1 sequencesSearched 482 bases in 2 sequences[mkohda@G5]% exit

Page 27: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

27

[UCSC] BLAT

• SNP周辺シークエンスがヒット=> SNPの位置を計算してカスタムトラック化する

match mis- rep. N's Q gap Q gap T gap T gap strand Q Q Q Q T T T T match match count bases count bases name size start end name size start end---------------------------------------------------------------------------------------------------------------------------------------------------------------241 0 0 0 0 0 0 0 + your_query1 241 0 241 chr20 62435964 55370652 55370893241 0 0 0 0 0 0 0 + your_query2 241 0 241 chr20 62435964 55387233 55387474

result.psl

Page 28: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

28

実験フローチャート

候補遺伝子領域での - 連鎖不平衡 (LD) 地図作製 - tagSNPの選定

SNP相関検定

PAHSER (haplo.stats)

dbSNP / jSNPR (glm, fisher.test)UCSC Genome BrowserBLAT

tagSNPとLD情報を踏まえて - haplotype頻度推定 - haplotype相関検定

HapMapLDpairsGOLDldSelect

Page 29: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

29

• 日本人を含めた4民族のSNPデータを公開=> SNP同士の連鎖不平衡状態を調べることでタイピング範囲を決められる

[HapMap] HapMap project

http://www.hapmap.org/index.html.en

Page 30: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

30

[HapMap] Why?

• 相関のあったSNPが本命とは限らない-> 近傍マーカーである可能性-> 上のケースだと、どちらの遺伝子のどの変異が作用するのか不明

Page 31: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

31

[HapMap] 連鎖不平衡領域を調べる

• http://www.hapmap.org/genotypes/2005-06_16c.1_phaseI/full/non-redundant/

からgenotypes_chr10_JPT.txt.gzなどをダウンロード

Page 32: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

32

[HapMap]連鎖不平衡領域を調べる

• genotypes_chr11_JPT.atxt.gz– rsSNPのid、アレル、位置情報、結果などが記載されている

Page 33: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

33

• ダウンロードしたgenotypes_chr11_JPT.txtから興味のある遺伝子領域を取り出し、Haploviewで読み込む

[HapMap] Haploviewによる可視化

http://www.broad.mit.edu/mpg/haploview/

Page 34: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

34

• スクリプトだけで連鎖不平衡地図を作成する– http://www.smd.qmul.ac.uk/statgen/software/dcurtis/gcprog18.zip– ざっと眺めるのに便利(Excelで眺める)– 論文用に作図する時は、この後のGOLDを使う

LDpairs

Page 35: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

35

GOLDGraphical Overview of Linkage Disequilibrium.

• 発表用にキレイな図が欲しいですよね(?)

http://www.sph.umich.edu/csg/abecasis/GOLD/

ldmax - SNPタイピングデータから連鎖不平衡係数を算出GOLD - ldmaxの結果を読み込んで可視化Windows上で動作

Page 36: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

36

• 振る舞いの同じSNPをまとめて、1グループ化する(=> コストと計算量削減)http://droog.gs.washington.edu/ldSelect.html

ldSelect.pl

Sample_Name rg11705 rg07816 rg12097

Sample0001 A A CSample0002 AC AC CSample0003 A A CTSample0004 A A CSample0005 A A CTSample0006 A A CTSample0007 A A CSample0008 A A CTSample0009 A A CTSample0010 A A CTSample0011 A A C

rg11705とrg07816は同じ挙動

=> 1つをタイピングすれば事足りる

Page 37: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

37

• タイピングデータを整形し

ldSelect.pl

Bin 1 total_sites: 6 average_minor_allele_frequency: 10%Bin 1 TagSnps: rg107816 rg111705Bin 1 other_snps: ..Bin 4 total_sites: 1 average_minor_allele_frequency: 28%Bin 4 TagSnps: rg112097 Bin 4 other_snps:

% ldselect.pl -pb typingdata.input

SNP_ID Sample_ID 1 2

99011705 121 A A99011705 122 A C

... ... ... ...99011705 1963 A A99007816 121 A A99007816 122 A C

Page 38: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

38

実験フローチャート

候補遺伝子領域での - 連鎖不平衡 (LD) 地図作製 - tagSNPの選定

SNP相関検定

PAHSER (haplo.stats)

dbSNP / jSNPR (glm, fisher.test)UCSC Genome BrowserBLAT

tagSNPとLD情報を踏まえて - haplotype頻度推定 - haplotype相関検定

HapMapLDpairsGOLDldSelect

Page 39: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

39

ハプロタイプは大混乱‥

• A comprehensive literature review ofhaplotyping software and methods for usewith unrelated individualsSalem, Rany M.1; Wessel, Jennifer1; Schork, Nicholas J.1Human Genomics, Volume 2, Number 1, March 2005, pp. 39-66(28)

– Forty-six haplotyping programs were identifiedand reviewed...

Page 40: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

40

• 他のプログラムでは見かけない利点– ハプロタイプ推定と頻度差検定を1つのプログラム内で行える

– 有害反応とハプロタイプの相関関係に加えて、他の因子も同時に考慮出来る

R (haplo.stats)

ダウンロード(Rに組込む)http://cran.r-project.org/src/contrib/Descriptions/haplo.stats.htmlhttp://www.okada.jp.org/RWiki/index.php?haplo.statsから詳しく日本語情報が辿れる

Page 41: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

41

まとめ、というか経験談

• ピペットマン持つのも、キーボード叩くのも大して違いはありません

• 各種ツールの利用法は最初の数歩を覚えれば、あとは似た感じです=> ノザンとサザンの違い程度(?)

Page 42: Mac OSXで始める 中規模SNPs解析 · 自動化しなくても出来る? •~ 200 SNPs程度であれば、市販のソフトウェアを使う のも選択肢 –買えば使えるのは楽

42

謝辞

• Perlを教えてくれた石川敦子さん、タイピングデータと励ましをくれた菅智さん、ラボのみんな、そして快く承諾してくれた今井リーダーへ

• WEB、出版を通してバイオインフォを広めてくれた方達へ

感謝して、フィードバックしてみました