セミナーレポート

ビッグデータに欠かせない「機械学習」

情報処理学会・連続セミナー第5回をレポート

2012/12/6

 SNSや創薬、ヒトゲノムなどビッグデータの分析は、取りも直さず分析するツールの良し悪しも影響する。情報処理学会が開催する連続セミナー「ビッグデータとスマートな社会」の第5回は、機械学習にスポットを当ててそれぞれの研究者が登壇した。

2012年の連続セミナーから、大阪に遠隔会場が設けられるようになった
2012年の連続セミナーから、大阪に遠隔会場が設けられるようになった

ネットワーク構造を持つデータと機械学習


 機械学習とは、コンピュータに集めたデータを分析して、これから起こるであろうことを予測させるものだ。AI(人工知能)のイメージが強いが、東京大学大学院情報理工学系研究科の鹿島久嗣氏は、「機械学習」はデータを解析する技術の1つであるとして、「SNSに限らず、医療など様々な分野から集まるビッグデータを分析や予測するための道具が必要不可欠になる」と述べた。


 それでは機械学習が対象とするビッグデータは、どのような性質のものなのか。鹿島氏によれば、現在は「ネットワーク構造を持ったデータの分析」が必要になってきているという。ネットワーク構造を持つデータとは、ツリーや配列で表現がなされるデータのことで、SNSでは人と人とのつながりのほか、日本語などの自然言語処理、化合物、DNA配列などが挙げられる。


 また、ネットワーク構造も、「内部ネットワーク」と「外部ネットワーク」に分けることができる。SNSであれば、Aさんという人の性別、年齢などが「内部ネットワーク」、Aさんとつながっている人との人間関係が「外部ネットワーク」であるという。


 こうしたネットワーク構造のデータを解析するために、機械学習では「人間関係をはじき出すのに、Aさんとメールのやり取りがある人については『1』とする」(統計数理研究所の松井知子氏)などの設定をする。そして最小二乗*1 誤差などの様々な関数を使い、予測を出す。


ビッグデータと創薬


 しかし、機械学習でビッグデータから効果的な結果を求めるのはかなり難しい。例えば、新薬の開発などは10の60乗という医薬分子の種類から、薬に必要な機能を持つ化合物を作らなければならない。


 「ビッグデータ時代のバイオサイエンスと機械学習」と題して講演した統計数理研究所の吉田亮氏は、「既存の化合物の形と『近いものは似ている』という仮定で、新しい化合物の予測モデルを作り、化合物の設計をしていく」と述べ、化合物の改変に機械学習を用いた。その設計でできた化合物(バーチャル化合物)で、「薬理活性(薬の効果)は十分だが、毒性に懸念がある」など質の高い医薬品設計のカタログが増えてくるという。


 こうしたデータの蓄積は、その後の新薬開発に新たな弾みをつける。吉田氏は「伝統的な物理学の方法ではできなかった新規の化合物の自動生成など、計算は大変になるものの、製薬の面でビッグデータ化は恩恵を受ける」と締めくくった。

ネットワーク構造について語る鹿島氏   吉田氏は人材不足にも言及
ネットワーク構造について語る鹿島氏   吉田氏は人材不足にも言及

検索アルゴリズムの重要性


 大量に蓄積されたデータの計算には、より高速なアルゴリズム(方法)を使うことが不可欠だという。産総研・生命情報工学研究センター主任研究員の津田宏治氏は「クラスタリングや教師付き分類など、機械学習で行う単純タスクが、データの量が多すぎて実行できない。かといってスパコンの性能も電力の問題などで限界がある」と述べ、アルゴリズムの重要性を説いた。


 まとまった資金のある大企業のみならず、個々の研究者もビッグデータを扱う必要がある中で、マシンのリソースを食わない検索アルゴリズムは不可欠である。津田氏は、メモリ消費を節約できる「類似度検索」と「全ペア類似度検索」を紹介した。


 「類似度検索」は、いわゆるツリー型になっているデータの「木をたどる」作業で、IME変換やGoogle日本語検索などにも利用されている。この検索でウェーブレットツリー*2を利用すれば、類似度の検索をより高速に使えるようになるという。


 「全ペア類似度検索」は、複合ソート法と呼ばれる手法を用いて、効率的な検索方法を可能にするもの。「簡単に数千万点のデータを扱うことができ、様々な分野への応用が考えられる」と津田氏は述べた。


 データの分析や、分析を踏まえた予測は重要性が増している。しかし「日本には統計科学の専攻、大学院教育プログラムは存在しない」(吉田氏)ように、データの増加に対して、それを扱う人材が不足しているのが現状だ。統計数理研究所ではデータ解析の人材育成プログラムを開始しているが、それでも現場では「マンパワーが足りない」という。データ分析のスペシャリスト育成は喫緊の課題である。

(中西 啓)

注釈

*1:最小二乗
例えば自動車の速度と一定時間内の走行距離の関係について折れ線グラフを引くことを想定した場合、計算上では一定の関係になるはずだが、実際に測定すると様々な条件が重なりばらつき(誤差)が出てくる。そのばらつきの平均値に線を引く計算方法のこと。

*2:ウェーブレットツリー
文字列の簡潔なデータ構造。ある文字が何番目に出現するか、などを一定時間で答える。

【セミナーデータ】

イベント名
:ビッグデータに立ち向かう機械学習
(「ビッグデータとスマートな社会」第5回)
主催   
:情報処理学会
開催日  
:2012年11月19日
開催場所 
:化学会館(東京都千代田区)

【関連カテゴリ】

その他