Sample data for GigAssembler

GigAssember 作成のためのサンプルデータ

アセンブリ技術の論文

W. James Kent, David Haussler: GigAssembler: An Algorithm for the Initial Assembly of the Human Genome Working Draft. UCSC-CRL-00-17 December 27, 2000. HTML file

の GigAssember をプログラム化したとき、そのテストデータが必要かと思いますので、以下に挙げます。

参考論文

Eric S. Lander, Lauren M. Linton, Bruce Birren, Chad Nusbaum, Michael C. Zody, Jennifer Baldwin, Keri Devon, Ken Dewar, et al.
Initial sequencing and analysis of the human genome.
Nature 409, 860 - 921 (15 February 2001) PDF

The Sequence of the Human Genome J. Craig Venter, et al.
The Sequence of the Human Genome.
Science 2001 February 16; 291: 1304-1351. 日本語訳PDF

GigAssember が作り出した contig の例

ヒト１８番染色体の contig 　ctg12316

この contig を作成するため使われた、より短い配列 (fragment) のリストは ctg12316.agp あり、このファイルの中身をどのように解釈したらよいかについては

http://genome.ucsc.edu/goldenPath/datorg.html

に解説があるのですが、分かりにくいかもしれないので補足します。

１行目の意味

ctg12316.agp を開くと先頭は以下のように

18/ctg12316 1		49328 	1	D	AC021110.3	105845	155172	-

最初の列は、18番染色体の ctg12316 というcontig であることを意味してます。続いて、この contig の 1 番目から 49328 番目の塩基配列がこの contig 全体の中で 1 番目の raft であることを意味しています。　ではこの塩基配列がどこから取ってこられたかというと、 D つまりドラフト配列 AC021110.3 (最後の 3 はバージョンを意味してます)の 105845から 155172までを　"-" 方向（この意味はあとで説明します）に切り取ったことを示しています。

このドラフト配列 AC021110.3 には 6本の fragment が順不同のまま含まれており、長さ 100 の nnn...n を挿入することで、6本が１本の配列に順不同のまま並べられています。

それから - の印のついた配列は、 raft にする際に、逆向きにしてから相補配列にした後にマッチをしたことを意味します。なぜこんなめんどくさいことになるか？　それはＤＮＡの二重らせん構造と関係があります。二重らせん構造では、以下の例のように上側のDNA配列（+ strand と呼びます）と下側のDNA配列（- strand）が、a-t の相補的ペアもしくは、g-c の相補的ペアが水素結合により組み合わさることで2億以上もの長さを切れないように安定して形成しています。

5' ...atgctctatgtcgtatcatgcatcagtatttgtcatcagtgcatcgatttt... 3'
      |||||||||||||||||||||||||||||||||||||||||||||||||||
3' ...tacgagatacatcatagtacgtagtcataaacagtagtcacgtagctaaaa... 5'

この DNA 配列をズタズタに分断し、短くしてから読んだ部分列 fragemnt ですが、問題はどちらの strand から出てきたのか分からなくなることです。例えば、上の配列が、以下のように赤、青、緑の３つの部分列から成るとき、問題となるのは緑の配列が、データベース中には 5' 側から 3' 側への順番、つまり atgacaaatactga のように登録されている点です。

5' ...atgctctatgtcgtatcatgcatcagtatttgtcatcagtgcatcgatttt... 3'
      |||||||||||||||||||||||||||||||||||||||||||||||||||
3' ...tacgagatacatcatagtacgtagtcataaacagtagtcacgtagctaaaa... 5'

この問題は　atgacaaatactga を逆順にしてから相補鎖をとった tcagtatttgtcat にすることで以下のようにつなげることができるわけです。

5' ...atgctctatgtcgtatcatgcatcagtat    catcagtgcatcgatttt... 3'
                            tcagtatttgtcat

２行目の意味

ctg12316.agp の1,2 行目は以下のようになってます。

18/ctg12316 1		49328 	1	D	AC021110.3	105845	155172	-
18/ctg12316 49329	49428 	2	N	100 		fragment yes

２行目は、長さ 100 の nnn...nn を挿入したことを意味します。

GigAssemby

GigAssembly した結果は、以下の赤い部分です。

18/ctg12316 1		49328 	1	D	AC021110.3	105845	155172	-
18/ctg12316 49329	49428 	2	N	100 		fragment yes
18/ctg12316 49429 	56589 	3	D	AP001390.2	97437	104597	-
18/ctg12316 56590 	63669	4	D	AC021110.3	36971	44050	-
18/ctg12316 63670 	122153	5	D	AP001390.2	299	58782	+
18/ctg12316 122154 	130796	6	D	AC021110.3	9880	18522	-
18/ctg12316 130797 	131405	7	D	AP001390.2	123400	124008	-
18/ctg12316 131406 	174488	8	D	AC021110.3	62618	105700	+
18/ctg12316 174489 	174598	9	D	AP001390.2	135892	136001	-
18/ctg12316 174599 	174698	10	N	100		fragment yes

赤い部分で一つの raft を構成しており、7本の fragment が使われています。これら7本の fragment が含まれているのが、以下の２本のドラフト配列です。

AP001390 (21本の fragments, AP001390.2 の 2 はバージョン番号です)

AC021110　（6本の fragmeents）

これを GibAssembler で並べたのが　ヒト１８番染色体の contig 　ctg12316　の 49429 番目から 174489 番目までの塩基配列です。

以上はサンプルデータです。

contig のアーカイブは

　http://genome.cse.ucsc.edu/goldenPath/12dec2000/bigZips/

にある以下のアーカイブに入っています。
　　 contigFa.zip 　　　　　リピート配列を N でマスクしていない contig のリスト
　　 contigFaMasked.zip 　リピート配列を N でマスクした contig のリスト
　　 contigAgp.zip 　　　　これらの contig を繋ぎ合わせた過程に使った fragment のリスト

あと、ドラフト配列の archive が入手できればよいのですが、Jim Kent が教えてくれました。

http://www.cse.ucsc.edu/~kent/test/gs.6/ffa/

の下の、finished.ffa.gz, draft.ffa.gz, predraft.ffa.gz です。