セミナーレポート

ビッグデータの解析とその応用

情報処理学会主催連続セミナーを取材

2012/7/17

 情報処理学会は2012年6月25日、化学会館で連続セミナー第1回「ビッグデータの解析と価値の発見」を開催した。さまざまなビジネスへの活用が望まれているビッグデータ。その解析手法や実利用について講演が行われた。

関心の高い分野の為か会場は満員だった
関心の高い分野の為か会場は満員だった

ビッグデータの解析手法


 ビッグデータとは携帯電話の位置情報や製品のコード番号など、企業や大学などが蓄積している巨大なデータのこと。この巨大なデータをコンピュータなどで解析することで、新たな発見を見つけ出す手法をデータマイニングと呼んでいる。

 

 国立情報学研究所准教授の宇野毅明氏はビッグデータの解析についての一般的な理論について説明した。小規模なデータに比べて、ビッグデータを扱うことはメリットが多い。例えば「データが大きければ、例外などの事例も比較的簡単に見つかり、分析の精度も上がる」(宇野氏)。同氏はビッグデータの解析プロセスを紹介。巨大な生データをデータマイニングすることで「一次加工データ」をつくり、それを基に様々なアルゴリズムを用いて規則性をみつける「機械学習」を行うといった一連の流れを解説した。


 宇野氏はさらに一次加工データを機械で分析する手法について言及。生データから「機械学習」が行いやすいクラスタ(データのかたまり)を見つける、クラスタマイニングという手法を研究していることを明らかにした。

 

データマイニングの重要性と応用

 

 また、NEC情報研究所の森永聡氏はデータマイニングのプロセスを説明した。データマイニングの工程は、生データから属性データをつくる「前処理」、その属性データの中からパターンを抽出する「本分析」、その分析結果を利用しやすいように加工する「後処理」の3つから成り立っている。同氏は本分析の処理について「データの数、タスクに関する事前知識の量、どんな前処理をやったかが、パターン抽出やその後の処理がうまくいくかにも影響してくる」と説明した。


 森永氏は続けてビッグデータを解析する事例を紹介。レセプト(健康保険の請求書)に記載された治療薬、診療行為のデータから、患者に対する薬剤の副作用を検出する事例や、航空機着陸の際の安全確保のために、GPS信号誤差を分析し異常の検出を行う事例を挙げた。

国立情報学研究所准教授・宇野毅明氏   楽天技術研究所所長・森正弥氏
国立情報学研究所准教授・宇野毅明氏   楽天技術研究所所長・森正弥氏

楽天の活用事例

 

 楽天の執行役員で楽天技術研究所所長の森正弥氏は、企業の情報活用や自社のビッグデータの活用について講演した。同氏はまず企業が取り組んでいる「情報の活用例」を紹介。例えばデバイスの電子機器の価格変動を予想するサイトを展開する「decide.com」という米国企業は、は適切な買い時をユーザに伝えるために数百のECサイトから価格データを収集・解析している、という。


 森氏が所属する楽天技術研究所で扱っている「スーパーデータベース(DB)」では、楽天会員の様々なデータを集約。およそ7200万人にも及ぶ楽天会員の属性情報や購買情報、興味、関心などの登録情報、ポイント利用情報といったものなどを加工・収集・分析し、顧客へのターゲッティング広告や営業支援に役立てている。


 楽天では、こうした「個人情報」のほかに顧客のアクセスログやサーチログといった「ビッグデータ」が存在する。このビッグデータをHadoop上に集積。大量の情報をビジネスに活用している。


 例えば楽天市場で扱っている売れ筋のランキング「楽天プロダクトランキング」で使用するために売上件数や売上高、価格・製品コード・発売日などのビッグデータを毎日集計・解析している。これらのデータ量は1日あたり300GBにも及ぶ。また、検索の分野においては月250GBものビッグデータを、Hadoopに蓄積して解析することで、日本語の固有名詞・関連語の提示や辞書の作成を行っている。楽天技術研究所は現在、スーパーDBとHadoopに蓄積されたビッグデータとの連携方法を模索しているようだ。


 森氏は「今後はスマートフォンの普及で、これまでの情報に加えて、位置情報も付加されるため、さらにビッグデータの利用価値が高まる」と指摘。より高度な情報の活用体制の構築が企業に求められるとともに、情報ネットワークの在りようも大きく影響を受けると締めくくった。


 このように、ビッグデータ解析の重要度が高まる一方で、大量のデータを解析したり、パターンを導き出す人材が不足していることが大きな課題となっている。統計学や機械学習に関する高度な知識をもつ人材を育成しなければ、解析の効果を上げることはできないからだ。


 近年の情報爆発により、ビッグデータの利活用に関する企業や組織の関心が高まっている。情報の多さに戸惑うことなく正しい解析を行い、利活用に結びつけることが、これからの企業や社会に求められる。

(山下雄太郎)

注釈

*:Hadoop
オープンソースの大規模データ処理システム。大量のデータを手軽に複数のマシンに分散して処理することが可能となる。

【セミナーデータ】

イベント名
:ビッグデータの解析と価値発見(第1回「ビッグデータとスマートな社会」)
主催   
:情報処理学会
開催日  
:2012年6月25日
開催場所 
:化学会館(東京都千代田区)

【関連カテゴリ】

トレンドその他