20110602labseminar pub
DESCRIPTION
TrinityとNewbler2.5を用いて454データに対するde novo transcriptome assembleをしたときの精度比較@瀬々ラボセミナーTRANSCRIPT
![Page 1: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/1.jpg)
仕事内容の紹介RNA-Seqの概要アセンブラの精度比較
奥田 裕樹 (yag_ays)
のために
を説明した上で
について報告します
http://yag-ays.jp/pdf/20110602labseminar_pub.pdf
![Page 2: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/2.jpg)
追記:登場人物生物 cens
ored
usagi:既に全ゲノム配列が読まれている モデル生物でアノテーションも豊富
usamimi:ゲノム配列が読まれていない生物 うさぎの近縁種 かわいい「「
![Page 3: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/3.jpg)
NGS(Next Generation Sequencing)
RNA-Seq(Transcriptome Analysis)
de novo Transcriptome Assembly
![Page 4: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/4.jpg)
Central DogmaA T G C
DNA
mRNA
Protein
![Page 5: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/5.jpg)
A T G C
細胞の個性
Central DogmaDNA
mRNA
Protein
![Page 6: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/6.jpg)
A T G C
細胞の個性?Transcriptome
Central DogmaDNA
mRNA
Protein
![Page 7: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/7.jpg)
A T G C
NGSを用いたRNA-Seq
TTAGCCTTAGCTTCCGTCGCAACTTCCTTATTCACGAGCTTGATGTTGCGGATCACTTTG
断片化
• illumina / Solexa GA• ABI / SOLiD• Roche / 454• PacBio• Helicos / Heliscope• ion torrent etc...
NGSの機種
読み取り
mRNA
![Page 8: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/8.jpg)
A T G C
NGSを用いたRNA-Seq
TTAGCCTTAGCTTCCGTCGCAACTTCCTTATTCACGAGCTTGATGTTGCGGATCACTTTG
断片化
• illumina / Solexa GA• ABI / SOLiD• Roche / 454• PacBio• Helicos / Heliscope• ion torrent etc...
NGSの機種
読み取り
mRNA
• 転写物の絶対定量• 原理的には「配列」と「本数」を測定
• 低発現量の転写物も検出できる
NGSの特徴
![Page 9: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/9.jpg)
ʻalign-then-assembleʼapproach
ʻassemble-then-alignʼapproach
RNA-Seqの二つの戦略
![Page 10: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/10.jpg)
ʻalign-then-assembleʼapproach
ʻassemble-then-aliignʼapproach
RNA-Seqの二つの戦略
• よく研究されているモデル生物では主流
• 低発現の転写物を 検出しやすい
• 参照配列に依存
![Page 11: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/11.jpg)
ʻalign-then-assembleʼapproach
ʻassemble-then-alignʼapproach
RNA-Seqの二つの戦略
• 454初期から利用されてきた方法
• 参照配列に依存しない• アセンブルが難しい
単純なアセンブルの方法
![Page 12: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/12.jpg)
ʻalign-then-assembleʼapproach
ʻassemble-then-alignʼapproach
RNA-Seqの二つの戦略
![Page 13: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/13.jpg)
ʻalign-then-assembleʼapproach
ʻassemble-then-alignʼapproach
RNA-Seqの二つの戦略
リファレンスとなる
ゲノム配列が無い場合
![Page 14: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/14.jpg)
ʻalign-then-assembleʼapproach
ʻassemble-then-alignʼapproach
RNA-Seqの二つの戦略
リファレンスとなる
ゲノム配列が無い場合
![Page 15: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/15.jpg)
ʻalign-then-assembleʼapproach
ʻassemble-then-alignʼapproach
RNA-Seqの二つの戦略
リファレンスとなる
ゲノム配列が無い場合
• 近縁種のゲノム配列を参照配列とする
• cDNAライブラリーを用いる
![Page 16: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/16.jpg)
ゲノム配列未決定種におけるトランスクリプトームアセンブラの選択
Sujai Kumar and Mark L Blaxter : Comparing de novo assemblers for 454 transcriptome data (2010) において
Newbler 2.5が最も良いパフォーマンスを示した
![Page 17: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/17.jpg)
ゲノム配列未決定種におけるトランスクリプトームアセンブラの選択
Sujai Kumar and Mark L Blaxter : Comparing de novo assemblers for 454 transcriptome data (2010) において
Newbler 2.5が最も良いパフォーマンスを示した
幾つか検討してみることに...
![Page 18: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/18.jpg)
ゲノム配列未決定種におけるトランスクリプトームアセンブラの選択
Sujai Kumar and Mark L Blaxter : Comparing de novo assemblers for 454 transcriptome data (2010) において
Newbler 2.5が最も良いパフォーマンスを示した
幾つか検討してみることに...
Trinity...!!
![Page 19: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/19.jpg)
アセンブラの設計が違う1.Newbler 2.5
• Roche 454謹製のアセンブラ
• 454特有の長い配列に対応した設計
• 様々な論文で使用されてきた実績がある
2.Trinity• Broad Instituteが開発した,参照配列を必要としないトランスクリプトームアセンブラ
• 454配列データへの適用例は今のところ無い (ハズ)
• Nat Biotechnol. 2011 Mayに論文 ** Grabherr MG, Haas BJ, Yassour M et al. : Full-length transcriptome assembly from RNA-Seq data without a reference genome. Nat Biotechnol. 2011 May 15
![Page 20: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/20.jpg)
1.Newbler 2.5 • Overlap-Layout-Consensus (OLC)
2.TrinityI. Inchworm : k-mer graphII. Chrysalis : Contig poolIII.Butterfly : De Bruijn Graph
アセンブラのアルゴリズムも違う
タイプの異なる2つのアセンブラで解析を行って精度を比較した
![Page 21: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/21.jpg)
Roche 454 pyrosequencingにおけるusamimiのデータ
Newbler 2.5 Trinity
GMAPwith usagi CDS
今回の実験内容 (sff or fastq format)
遺伝子配列と注釈(gff format)
遺伝子配列(fasta format)
遺伝子配列(fasta format)
遺伝子配列と注釈(gff format)
:約0.3M reads
![Page 22: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/22.jpg)
• 全コンティグ長の累計塩基数が最も長い
• 近縁種が持つ配列を最もカバーする
理想のアセンブラは
結果を出すと仮定して,コンティグの数や塩基数の分布,近縁種にマッピングした結果を比較する
(コンティグの数に応じて)
アセンブラの比較方法はS. Kumar et al.(2010)から実行可能なものを選択
![Page 23: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/23.jpg)
Newbler 2.5 Trinity
Number of contigs
19,753 20,758
Total Bases 9,651,390 10,275,166
Max contig length
2,878 2,151
Mean contig length
488.6 495
N50 581 616
Newbler 2.5とTrinityで同様の結果が得られた
得られたコンティグを長い順に並べた模式図
![Page 24: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/24.jpg)
Newbler 2.5
Trinity
N = 19,753
N = 20,758
得られたコンティグ長の分布は同様の傾向を示した
http://edwards.sdsu.edu/prinseq_beta/
![Page 25: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/25.jpg)
0
4000
8000
12000
16000
Newbler 2.5 Trinity
all ≧ 80% alignment≧ 90% alignment≧ 95% alignment100% alignmentNewbler 2.5 Trinity
all
≧ 80%
≧ 90%
≧ 95%
100%
15,498 15,524
14,583 14,697
8,466 8,665
1,059 1,191
66 30
得られたコンティグをusagiのCDSにマッピングして注釈を付与した結果,
同様の遺伝子数および一致度の分布を示した
usagi CDS :30,000くらい
![Page 26: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/26.jpg)
2,990 9,427 1,006
TrinityNewbler 2.5
10,433genes
12,417genes
得られたコンティグに対応付けられたusagiの注釈数は,ほぼ同様の値を示した
![Page 27: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/27.jpg)
S. Kumar et al.(2010) において
Poly(A/T)配列によるミスアセンブルは起こらない
Poly(A/T)配列を除去した場合としなかった場合を比較
アセンブルした配列にPoly(A/T)配列が再現されていれば配列の末端が正しくアセンブルされていると判断できる
+
より生物学的な側面から...
![Page 28: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/28.jpg)
Poly(A/T)配列の再現率では Trinity > Newbler 2.5
3,773 (18.18%)
2,349(11.32%)
257 (1.30%)
539(2.73%)
Newbler 2.5 Trinity
Poly T
Poly A
20 bp 20 bp
20 bp 20 bp
( )内は全コンティグ数に占める割合http://edwards.sdsu.edu/prinseq_beta/
![Page 29: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/29.jpg)
Poly(A/T)配列の再現率では Trinity > Newbler 2.5
3,773 (18.18%)
2,349(11.32%)
257 (1.30%)
539(2.73%)
Newbler 2.5 Trinity
Poly T
Poly A
20 bp 20 bp
20 bp 20 bp
( )内は全コンティグ数に占める割合
Poly(A/T)の性質上Quality Valueが低い→NewblerのQualityによるtrimmingによるもの...?
http://edwards.sdsu.edu/prinseq_beta/
![Page 30: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/30.jpg)
TrinityはNewbler 2.5と比較してほぼ同程度の精度を示した
得られたコンティグの量や分布usagi CDSとの対応
:差がない1.
2.Poly(A/T)配列の再現率ではTrinityがNewbler 2.5を上回った
ほぼ
![Page 31: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/31.jpg)
TrinityはNewbler 2.5と比較してほぼ同程度の精度を示した
得られたコンティグの量や分布usagi CDSとの対応
:差がない1.
2.Poly(A/T)配列の再現率ではTrinityがNewbler 2.5を上回った
・Trinityの精度が実証・454にも対応できる
ほぼ
![Page 32: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/32.jpg)
TrinityはNewbler 2.5と比較してほぼ同程度の精度を示した
得られたコンティグの量や分布usagi CDSとの対応
:差がない1.
2.Poly(A/T)配列の再現率ではTrinityがNewbler 2.5を上回った
個別に配列を見るなどもう少し詳しく検討
・Trinityの精度が実証・454にも対応できる
ほぼ
![Page 33: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/33.jpg)
![Page 34: 20110602labseminar pub](https://reader033.vdocuments.us/reader033/viewer/2022052910/559a367b1a28aba3158b46ae/html5/thumbnails/34.jpg)
Method : Parameters
• Newbler 2.5
• -notrim
• -urt
• Trinity (20110519 ver.)
• --seqType=fq
• --single
• --min_contig_length 50
• --run_butterfly
• --CPU 4
• --bfly_opts "--compatible_path_extension --stderr "