GigAssember 作成のためのサンプルデータ
アセンブリ技術の論文
W. James Kent, David Haussler: GigAssembler: An Algorithm for the Initial Assembly
of the Human Genome Working Draft. UCSC-CRL-00-17 December 27, 2000. HTML
file
の GigAssember をプログラム化したとき、そのテストデータが必要かと思いますので、以下に挙げます。
参考論文
Eric S. Lander, Lauren M. Linton, Bruce Birren, Chad Nusbaum, Michael C. Zody,
Jennifer Baldwin, Keri Devon, Ken Dewar, et al.
Initial sequencing and analysis of the human genome.
Nature 409, 860 - 921 (15 February 2001) PDF
The Sequence of the Human Genome J. Craig Venter, et al.
The Sequence of the Human Genome.
Science 2001 February 16; 291: 1304-1351. 日本語訳PDF
GigAssember が作り出した contig の例
ヒト18番染色体の contig ctg12316
この contig を作成するため使われた、より短い配列 (fragment) のリストは ctg12316.agp あり、このファイルの中身をどのように解釈したらよいかについては
http://genome.ucsc.edu/goldenPath/datorg.html
に解説があるのですが、分かりにくいかもしれないので補足します。
1行目の意味
ctg12316.agp を開くと先頭は以下のように
18/ctg12316 1 49328 1 D AC021110.3 105845 155172 -
最初の列は、18番染色体の ctg12316 というcontig であることを意味してます。続いて、この contig の 1 番目から 49328 番目の塩基配列がこの contig 全体の中で 1 番目の raft であることを意味しています。 ではこの塩基配列がどこから取ってこられたかというと、 D つまりドラフト配列 AC021110.3 (最後の 3 はバージョンを意味してます)の 105845から 155172までを "-" 方向(この意味はあとで説明します)に切り取ったことを示しています。
この ドラフト配列 AC021110.3 には 6本の fragment が順不同のまま含まれており、 長さ 100 の nnn...n を挿入することで、6本が1本の配列に順不同のまま並べられています。
それから - の印のついた配列は、 raft にする際に、逆向きにしてから相補配列にした後にマッチをしたことを意味します。なぜこんなめんどくさいことになるか? それはDNAの二重らせん構造と関係があります。二重らせん構造では、以下の例のように上側のDNA配列(+
strand と呼びます)と下側のDNA配列(- strand)が、a-t の相補的ペアもしくは、g-c の相補的ペアが水素結合により組み合わさることで2億以上もの長さを切れないように安定して形成しています。
5' ...atgctctatgtcgtatcatgcatcagtatttgtcatcagtgcatcgatttt... 3'
||||||||||||||||||||||||||||||||||||||||||||||||||| 3' ...tacgagatacatcatagtacgtagtcataaacagtagtcacgtagctaaaa... 5'
この DNA 配列をズタズタに分断し、短くしてから読んだ部分列 fragemnt ですが、問題はどちらの strand から出てきたのか分からなくなることです。例えば、上の配列が、以下のように赤、青、緑の3つの部分列から成るとき、問題となるのは緑の配列が、データベース中には
5' 側から 3' 側への順番、つまり atgacaaatactga のように登録されている点です。
5' ...atgctctatgtcgtatcatgcatcagtatttgtcatcagtgcatcgatttt... 3'
||||||||||||||||||||||||||||||||||||||||||||||||||| 3' ...tacgagatacatcatagtacgtagtcataaacagtagtcacgtagctaaaa... 5'
この問題は atgacaaatactga を逆順にしてから相補鎖をとった
tcagtatttgtcat にすることで以下のようにつなげることができるわけです。
5' ...atgctctatgtcgtatcatgcatcagtat catcagtgcatcgatttt... 3'
tcagtatttgtcat
2行目の意味 ctg12316.agp の1,2 行目は以下のようになってます。 18/ctg12316 1 49328 1 D AC021110.3 105845 155172 - 18/ctg12316 49329 49428 2 N 100 fragment yes
2行目は、長さ 100 の nnn...nn を挿入したことを意味します。
GigAssemby
GigAssembly した結果は、以下の赤い部分です。
18/ctg12316 1 49328 1 D AC021110.3 105845 155172 - 18/ctg12316 49329 49428 2 N 100 fragment yes 18/ctg12316 49429 56589 3 D AP001390.2 97437 104597 - 18/ctg12316 56590 63669 4 D AC021110.3 36971 44050 - 18/ctg12316 63670 122153 5 D AP001390.2 299 58782 + 18/ctg12316 122154 130796 6 D AC021110.3 9880 18522 - 18/ctg12316 130797 131405 7 D AP001390.2 123400 124008 - 18/ctg12316 131406 174488 8 D AC021110.3 62618 105700 + 18/ctg12316 174489 174598 9 D AP001390.2 135892 136001 - 18/ctg12316 174599 174698 10 N 100 fragment yes
赤い部分で一つの raft を構成しており、7本の fragment が使われています。これら7本の fragment が含まれているのが、以下の2本のドラフト配列です。
AP001390 (21本の fragments, AP001390.2 の 2 はバージョン番号です)
AC021110 (6本の fragmeents)
これを GibAssembler で並べたのが ヒト18番染色体の contig ctg12316 の 49429 番目から 174489 番目までの塩基配列です。
以上はサンプルデータです。
contig のアーカイブは
http://genome.cse.ucsc.edu/goldenPath/12dec2000/bigZips/
にある以下のアーカイブに入っています。
contigFa.zip リピート配列を N でマスクしていない contig のリスト
contigFaMasked.zip リピート配列を N でマスクした contig のリスト
contigAgp.zip これらの contig を繋ぎ合わせた過程に使った fragment のリスト
あと、ドラフト配列の archive が入手できればよいのですが、Jim Kent が教えてくれました。
http://www.cse.ucsc.edu/~kent/test/gs.6/ffa/
の下の、finished.ffa.gz, draft.ffa.gz, predraft.ffa.gz です。