演習3 ヒトゲノム解析
どれか一つ選んでください。
1) ドラフト配列アセンブラーの作成
2000年6月26日に国際ヒトゲノム・シークエンシング・コンソーシアムは、ヒトゲノムの大部分を覆う配列の断片を収集したことを宣言しました。配列決定の進行状況については
から常時公開されています。しかし各ヒト染色体毎に断片を1本の配列として完全に繋ぎ合わせるには、まだまだ時間がかかりそうです(参照論文PDF)。このように断片をのりしろを見つけながらつなぎ合わせていくツールをここでは、ドラフト配列アセンブラーと呼びます。ドラフト配列アセンブラーはヒトゲノム解析の基本的な技術ですが、残念ながら日本は米国に一歩遅れをとっています。
新聞紙上でよく名前の出てくる Celera ではこのテクニックの詳細や、実際にアセンブリした配列を公開していません。一方、 University of California, Santa Cruz のチームは、アセンブリ技術とアセンブルした配列を公開してこの分野をリードしています。
アセンブリ技術の論文
W. James Kent, David Haussler: GigAssembler: An Algorithm for the Initial Assembly of the Human Genome Working Draft. UCSC-CRL-00-17 December 27, 2000. HTML fileアセンブリ結果
http://genome.cse.ucsc.edu/goldenPath/12dec2000/bigZips/アセンブル用のサンプルデータ NEW!
このように、ドラフト配列アセンブラーに関しては米国が先行している状況があり、またヒトゲノムはあとの約10%を確定する作業を残す段階まで進んでおり、いまさらドラフト配列アセンブラーをつくることに研究の価値はどの程度あるか? という疑問もあります。
ただ今後、マウスやヒト以外の類人猿のゲノムの断片が次々と出てくるので、アセンブラーは当面重要な技術として需要があると考えられます。またこれだけ基幹的な技術は、フォローする価値があるだろうと考えてこの課題を出します。この課題を取り組みに当たっては、まず次の論文の863ページから870ページまでを読んで、ヒトゲノム配列決定のためのロードマップと、用語の意味を理解することを薦めます。
文献1 Eric S. Lander, Lauren M. Linton, Bruce Birren, Chad Nusbaum, Michael C. Zody, Jennifer Baldwin, Keri Devon, Ken Dewar, et al. Initial sequencing and analysis of the human genome. Nature 409, 860 - 921 (15 February 2001) PDF
特に863ページの図2で大まかな流れを理解して、865ページの用語を理解し、そのあとに GigAssembler の論文を読むと読みやすいと思います。
文献2 W. James Kent, David Haussler: GigAssembler: An Algorithm for the Initial Assembly of the Human Genome Working Draft. UCSC-CRL-00-17 December 27, 2000. HTML file
この論文には図が殆ど出てこないのですが、文献1の869ページの図6に fragment から raft を作る工程を図示していますし、文献1の図7の870ページ図7に、barge の生成や raft の結合について解説してあります。
ソフトを作って、実データをアセンブリするのが課題ですが、できる範囲でトライすればよいです。
2) 遺伝子写像ソフトの作成
ドラフト配列アセンブラーの研究開発で米国の後塵を拝している状況で考えるべきことの一つは、その先のテーマでしょう。約90%以上ヒトゲノム配列が確定した段階で考えられる面白いテーマとして遺伝子写像ソフトの作成があります。
この問題は昨年の演習3で課題として出しました。現在修士1年の小笠原準君が1年間かけて解決し、従来のソフトの100倍以上の効率向上を達成しました。その意味で既に解かれた問題ですが、ドラフト配列アセンブラー以上に今後重要になる技術なので再度説明し、課題として出します。
上図にしたがって、蛋白質が精製されるまでのプロセスを簡単に説明します。上図の左は、核をもつ真核生物(ヒトなど)における蛋白質精製の過程を示しています(右図は核のない原核生物の図で今回はあまり関係がないです)。核内にはDNAが存在し、その長さは塩基数にして、約2億6千万個(1番染色体)から約4500万個(22番染色体)と言われています。DNAからはその一部がまずRNAに転写されます。
問題1 どの部分が転写されるか否かが、解明されていない。
このRNAは核の外に出る際にRNAスプライシングという操作を受けて、イントロンと呼ばれる蛋白質精製には無駄な部分が除去されて、必要な部分であるエキソンと呼ばれる部分だけが append された結果が核外に出ます。、この append された配列を mRNA を呼びます。mRNAの長さは高々約1万個です。
問題2 RNA において、どこまでがエキソンで、どこからがイントロンか、解明されていない。mRNA を見ただけでは、エキソンの切れ目が分からない。
mRNA はその一部が蛋白質として翻訳されてゆきます。さて、現在までに蓄積された mRNA の総数は約330万個(3月時点)あり dbEST からすべて入手できます。またdbEST のデータは未整理であるため、少し整理が進んだデータが Unigene (約250万個登録 3月時点)から入手できます。しかし、これらのデータベースでは問題1&2を解決する情報が出ていません。
この問題を解決するには、各 mRNA の配列をDNA上にエキソンに分解しながら逆写像することが必要になります。この目的のために, est2genome (英国 Sanger Center, 1996年)、sim4 (Univ. of Penn. 1998 年) が開発したソフトがありましたが、長大なヒトゲノムに対しては使い物にならないスピードで動作します(我々が実験した限り1番染色体に対しては動作しなかった)。
そこで、長さ14の部分配列(長さは必ずしも14でなくてもよい)が、DNA配列上でどの位置に出現しているかを記述したインデックス表をあらかじめつくり、この表を引きながらエキソンの位置を推測し、かつエキソンが分離する境界では動的計画法により写像を精緻化するプログラムを小笠原君が開発しました。アルゴリズムの詳細は小笠原君の卒業論文(図書室にあります)を見てください。
写像した結果を参照することで問題1&2に関してかなり詳細な情報が大量に得られるようになりました。結果は以下のサイトから2001年1月より公開しています。
Gene Resource Locator http://grl.gi.k.u-tokyo.ac.jp/
写像結果を解析してヒト遺伝子の総数を予測するための機能や、RDB 化や Flash を使った動的な GUI を博士1年の本蔵君が作成しています。
実は小笠原君が写像ソフトを開発しているのと同時期に University of California, Santa Cruz の Jim Kent もかなり類似した方法でソフトを開発し、写像結果を以下のサイトから公開しています。
UCSC Human Genome Browser http://genome.cse.ucsc.edu/goldenPath/decTracks.html
全く同時期の開発なので、どちらが先か否かよくわからない状況ですが、全く異なるチームが、異なる実装を行い、殆ど同じ写像が得られているので、ゲノム解析にとっては写像の信頼性を増す効果がありました。
さて課題ですが、小笠原君の卒業論文を読んで、改良が加えられないか考えて、実装することです。
データソースをまとめると以下のようになります。
ヒトゲノム配列(DNA配列)
801MB, 国際ヒトゲノムチームhttp://genome.cse.ucsc.edu/goldenPath/12dec2000/bigZips/chromFa.zip ヒトEST配列 467MB, 250万個, 重複有 ftp://ncbi.nlm.nih.gov/repository/UniGene/Hs.seq.all.Z ヒトEST配列 29.4MB, 重複なし,デバッグ用に適する ftp://ncbi.nlm.nih.gov/repository/UniGene/Hs.seq.uniq.Z マウスEST, 254MB, 重複有 ftp://ncbi.nlm.nih.gov/repository/UniGene/Mm.seq.all.Z ヒトEST配列 19.6MB, 重複なし,デバッグ用に適する ftp://ncbi.nlm.nih.gov/repository/UniGene/Mm.seq.uniq.Z 笠原君の考えている方法に参考になりそうな手法に suffix array があります。
「大規模テキスト索引(suffix array)の構築法とその情報検索への応用」 定兼邦彦(東北大学) PPTファイル
3)遺伝子発現量情報解析
知能システム論で紹介したクラスタリングツール(講義ノート)を試作します。
例題として15275個のヒト遺伝子が30個の性質が異なる細胞でどの程度発現しているかを示したデータを使います。k-クラスタリングの k の値を様々に変更してクラスタリングします。
データ iAFLPdata.txt
各行が一つの遺伝子の発現パターンを表しています。詳しくは
最初の30個の数値が30個の各細胞での発現の量を示しています。ただし -1 はデータが取れなかったことを意味します。データがすべて取れていれば、30個の数値の合計は30になるはずです。
31番目の番号はプライマー番号と呼ばれ、遺伝子を観測する実験につけられた通し番号です。一つの遺伝子を複数回観測する場合には、複数のプライマー番号が一つの遺伝子に付与されます。BodyMap Server に行き、primerIDボタンを選択し、INPUT でその番号を入力すると、発現パターンが波で表示されます。
32番目の番号はGS番号と呼ばる遺伝子につけられた通し番号で、BodyMap Server にゆき、GS IDボタンを選択し、INPUT でその番号を入力すると、その遺伝子に関する情報が表示されます。
33番目の列には、遺伝子の機能を示した名前がつけられています。