演習3 データマイニング
1) リンク情報を使ったランキング法やサイバーコミュニティ発見法
知能システム論の「Webグラフと検索エンジン」に関する講義(講義ノート)で紹介した以下のアルゴリズムのどれかを試作してみる課題です。
これらの課題に取り組む際に問題になるのがデータをどのように収集するかです。例えばgoogle.com が成功したのは、link を利用した有効な Page Ranking アルゴリズムを先駆けて開発したことにもありますが、それ以上に 10億を超える Web Page を高速に収集する技術と計算機環境を持ったことだと言われています。
この課題を選択するには、 自分で Web Crawler(Web Page の収集ソフト)を作成することになります。wget を利用してテキストを収集し link を辿ってゆくソフトを書くのが基本的なアプローチですが、既にあるソフトを使うこともできると思います。例えば
にはWeb Crawlerが公開されてます。 Web Crawler は簡単なものを作成し、ある程度ページを収集したら、Page Ranking
してみるのが1ヶ月でこなせる現実的な目標だと思います。
昨年もこの課題を出したのですが、Web Crawler を作成するのに皆苦労していました。研究の最前線でも、高速で無駄のない Web Crawler の開発それ自身が活発に研究されてます。例えば以下の論文で最新の結果を議論しています。これらの論文を読んで、Web Crawler を作成する際の問題点を考えるだけでもよいです。
2) クラス分類法 決定木/Boosting/最適区間領域計算
知能システム論の「クラス分類」に関する講義(講義ノート)で紹介した決定木を生成するプログラムを作成し、以下の例題を解くことを試みます。
例題B (本年度 KDD Cup 出題中の Dataset 1です。増田君用に新しく出題します。)
この例題のデータは http://www.biostat.wisc.edu/~page/Thrombin.zip から入手できます。このアーカイブには README がついているのですが、簡単に解説します。
このデータは、Thrombin という血液の凝固を起こす酵素に結合する可能性のある1909個の化合物に対して実験を行った結果を示しています。1行が一つの化合物に対応しており、第一列目が結合した(Active)もしくは結合しなかった(Inactive) を示しています。結合した化合物は 41 個です。 1行目から139,352行目までが各化合物の3次元的構造の特徴の有無を 1 もしくは 0 で表現しています。求めたいのは、 139,351 個の3次元的特徴の有無を使って、結合が Active もしくは Inactive どちらになるかを判別できる決定木です。
決定木の各ノードは f1234 = 1 とか f2345 = 0 のような条件でもよいですし、(f1234 = 1) かつ (f2345 = 0) のような論理積でも構いません。
データは訓練データで、テストデータは7月10日に http://www.cs.wisc.edu/~dpage/kddcup2001/ から公開になります。創薬デザインに役立つ知識を発見する問題で、バイオインフォマティクスの主要な問題の一つです。
例題A (大谷君と由利君が、アッという間に解いてしまったので、この例題は店じまいします)
Whitehead/MIT Center for Genome Research が公開している癌関連遺伝子を推測するためのデータを解析しましょう。 7129個の遺伝子の発現情報に関するデータが登録されてます。訓練データから癌か否かを判別するクラス分類ルールを生成して、テストデータに適用して判定するのが目的です。
このデータは数値を含んでいるので、"Attribute > value" のような条件の中で Entropy Gain を最小化する条件を計算する必要があります。さらに進んで "low < Attribute < high" の形をした最適区間とか、2次元中における最適領域を高速に計算することが考えられますが、これらの解法はちょっとと難しいので以下の参考文献を挙げます。
しかし、この手法の成否は、50%を超える予測精度の仮説を数多く生成できるかという点にかかっており、現実には仮説を少ししか生成できないため、予測精度を上げられないケースもしばしばあります。この問題を解決するため、我々が提案しているのは、最適な仮説を効率的に計算するアプローチです。
Jun Sese and Shinichi Morishita. "Computing Optimal Hypotheses Efficiently for Boosting'' (unpublished) PDF file