演習3 データマイニング


1) リンク情報を使ったランキング法やサイバーコミュニティ発見法   

知能システム論の「Webグラフと検索エンジン」に関する講義(講義ノート)で紹介した以下のアルゴリズムのどれかを試作してみる課題です。


昨年もこの課題を出したのですが、Web Crawler を作成するのに皆苦労していました。研究の最前線でも、高速で無駄のない Web Crawler の開発それ自身が活発に研究されてます。例えば以下の論文で最新の結果を議論しています。これらの論文を読んで、Web Crawler を作成する際の問題点を考えるだけでもよいです。


2) クラス分類法 決定木/Boosting/最適区間領域計算

知能システム論の「クラス分類」に関する講義(講義ノート)で紹介した決定木を生成するプログラムを作成し、以下の例題を解くことを試みます。


例題B (本年度 KDD Cup 出題中の Dataset 1です。増田君用に新しく出題します。)

この例題のデータは http://www.biostat.wisc.edu/~page/Thrombin.zip から入手できます。このアーカイブには README がついているのですが、簡単に解説します。

このデータは、Thrombin という血液の凝固を起こす酵素に結合する可能性のある1909個の化合物に対して実験を行った結果を示しています。1行が一つの化合物に対応しており、第一列目が結合した(Active)もしくは結合しなかった(Inactive) を示しています。結合した化合物は 41 個です。 1行目から139,352行目までが各化合物の3次元的構造の特徴の有無を 1 もしくは 0 で表現しています。求めたいのは、 139,351 個の3次元的特徴の有無を使って、結合が Active もしくは Inactive どちらになるかを判別できる決定木です。

決定木の各ノードは f1234 = 1 とか f2345 = 0 のような条件でもよいですし、(f1234 = 1) かつ (f2345 = 0) のような論理積でも構いません。

データは訓練データで、テストデータは7月10日に  http://www.cs.wisc.edu/~dpage/kddcup2001/ から公開になります。創薬デザインに役立つ知識を発見する問題で、バイオインフォマティクスの主要な問題の一つです。


例題A (大谷君と由利君が、アッという間に解いてしまったので、この例題は店じまいします

Whitehead/MIT Center for Genome Research が公開している癌関連遺伝子を推測するためのデータを解析しましょう。 7129個の遺伝子の発現情報に関するデータが登録されてます。訓練データから癌か否かを判別するクラス分類ルールを生成して、テストデータに適用して判定するのが目的です。