セミナーレポート

自然言語処理とテキスト情報

コンピュータに言語を解析させるために

2014/2/10

 インターネット上には無数のテキスト情報が存在する。限られた一部のメディアではなく、誰もが情報を発信できるようになった今、その種類・数・増加速度は過去の比ではない。口コミサイトや、スレッドフロー型の巨大掲示板、ブログ、Twitter、ウィキペディアなどには、無数のユーザが今もテキスト情報を投稿している。

 東京工業大学が定期的に行っている公開講座「東工大の最先端研究」で、同大学精密工学研究所の奥村 学教授が「インターネットから現実世界の『今』を読み解く」と題して、書きこまれたテキストをコンピュータで処理する技術について講義した。

公開講座ということもあり、専門家ではない聴講者が目立った
公開講座ということもあり、専門家ではない聴講者が目立った

自然言語処理とは?


 現在、ネット上には多数のユーザが日々、テキスト情報を書きこんでいる。それぞれのテキスト情報は、わずかだったり、あるいは断片的だったりと大きな意味を持たない場合が多い。しかし、テキストを集約(マインニング)して、情報の傾向などを解析できれば「現実世界の『今』、人々の意見、感情、行動を読み解くことができる」と、奥村氏は話す。


 ネット上にあふれる情報は大量で、人間が処理することは不可能だ。そのため、コンピュータに膨大なテキスト情報を処理させる必要がある。コンピュータでテキスト情報を解析したりあるいは処理したり、言葉そのものを理解させることを「自然言語処理」という。


 計算科学と言語学がミックスされた「自然言語処理」は、現在、検索エンジンなどを中心に利用されている技術。情報爆発・ビッグデータの活用が叫ばれる今、非常に重要な技術となっている。


 奥村氏は自然言語処理技術を使い、ブログを解析する「blogWatcher」というツールを作成している。blogWatcherは無数あるブログをコンピュータが自動で解析。「一定のキーワードがどの程度盛り上がったのか」「キーワードがどう評価されたのか」という全体的な分析から、ユーザの行動・属性など個々人の情報を抽出するところまで幅広く行えるツールだ。

Twitterを分析すればイベントの速報なども自動的に作成できる
Twitterを分析すればイベントの速報なども自動的に作成できる

ネットにあるテキスト情報の評価


 こうした分析は、現在ではTwitterなどに代表される「マイクロブログ」上でも行われている。Twitterは、ブログよりも手軽に更新されるため、速報性がブログよりも高く「『今』現在の実世界に関する情報が発信されている」(奥村氏)ため、解析さえできれば、情報の価値は非常に高くなる。


 無数に、同時的に様々な話題がつぶやかれるTwitter上で、どうやって特定の商品やサービス、事象を分析するのだろうか。分析と言っても、様々なものがあるが、例えば商品の評価などを分析する「意見分析」について奥村氏は、形容詞・形容動詞に注目することで、大勢の意見を測れるとしている。


 例えば「おいしい」という形容詞は、確実にポジティブである。つまり、何らかの事象について「おいしい」と書かれていればポジティブな評価だ。逆に「まずい」は確実にネガティブだ。


 「大きい」の場合は、状況によって変わってくる。「HDDの容量が大きい」ならばポジティブ、「HDDの動作音が大きい」ならばネガティブになる。こうしたポジティブともネガティブとも判別し難い情報は、HDDのような『対象』、動作音や容量といった『属性』、大きいという『評価』で使われ方の区別をする。とはいえ、それらの対象・属性・評価の「3つ組」がポジティブかネガティブかは、通常、人手で正解を与えていくしかない。


 しかし「正解が与えられていないデータも学習に取り入れて、性能を向上させる」(奥村氏)研究を進めているという。先ほどの「3つ組」の場合、周辺に使われているキーワードからポジティブかネガティブかを判別する。


 「やれやれ、このHDDはギュイーンという音が大きいのでうんざりだ」


 上の文章の中で「大きい」という言葉のかかる先が「うんざり」になっているため、ネガティブな情報だということがわかる。この周辺情報から推測する以外にも判別方法があり、文末に「(^-^)」という笑顔を表現した顔文字があればポジティブ。複数の文章において「Aなので良い」という評価と「AだからB」という評価があればBもポジティブ、というように多数の角度から形容詞・形容動詞に関する情報をコンピュータが自動的に学習していくことが可能になるわけだ。


 今後の展望について、奥村氏は「くだけた日本語の構造分析や炎上ツイートの検出、書き手の性格推定などに取り組んでいきたい」と話し、よりファジーで、デジタルなコンピュータでは処理しにくい表現を、自然言語処理する技術を開発していく。


 これまで、ただ垂れ流されてきたテキスト情報だが、収集・分析されれば貴重な情報源になる。スマートフォンやタブレットなどの浸透でさらにテキストの情報は増えていくだろう。今後は、こうした自然言語処理の技術がさらに求められていくに違いない。

(井上宇紀)

注釈

*:理解させること
厳密にはコンピュータに言語を理解させることを「自然言語理解」として「自然言語処理」と区別する場合もある

【セミナーデータ】

イベント名
:インターネットから現実世界の「今」を読み解く
主催   
:東京工業大学
開催日  
:2014年1月15日
開催場所 
:キャンパス・イノベーションセンター東京(東京都港区)

この記事のキーワード

【キーワード解説】自然言語処理

【関連カテゴリ】

その他