キーワード解説

特集などに出てきた重要語句を分かりやすく解説

2014/2/24

自然言語処理

概要

 自然言語処理(Natural Language Processing)とは、人間が使う言葉をコンピュータで処理をする際の技術全般を指す。コンピュータが使う「プログラム言語」と区別するため、日本語や英語などの人間の言葉を「自然言語」と呼んでいる。

 特に日本語の自然言語処理には、以下の4つの技術が必要になる。

・形態素解析(文を単語に分けて、品詞に分類する)
・構文解析(主語、述語など、単語の役割を見つける)
・意味解析(単語の意味を決める)
・文脈解析(「彼」「それ」が誰を指すか特定するなど、前後の文をまたいだ分析をする)

 機械翻訳や、WEB検索、広義には音声から文字に変換する音声認識は、この4技術を元にして開発されてきた。


IMEによる文字の変換や補正


 PCやスマートフォンに文字を入力する時、予測変換や文節の区切りを自動で行う「IME(Input Method Editor)」もその1つである。アルファベットだけの英語に比べ、日本語は漢字仮名交じりであるために、コンピュータへ正確に反映させるには手間がかかる。

1つの単語が、複数の意味を持ち合わせていることも珍しくない。「はなす」という単語も、「鳥を放す」「人と話す」「人から離す」などの意味に置き換わる。こうした同音異義語コンピュータが処理する場合は「隣り合った人とはなす」など、前後の文脈で区別をつけるようにプログラムを組むのである。

また、入力ミスを補正する機能もある。「もtっている」と誤入力しても、スペースキーで変換すると1回で「持っている」と自動的に補正される。この「入力支援」と呼ばれる打ち間違いの修正や、サジェスト機能と言われる「予測変換」も、膨大な入力パターンの分析を元に提供している。


機械翻訳


 機械翻訳の歴史は、「ENIAC」が誕生した第2次世界大戦後の1947年、米国の数学者ウォーレン・ウィーバーの研究が始まりと言われている。1954年にはIBMとジョージタウン大学が、ロシア語から英語への機械翻訳を試みている。当時の米国とソ連は、冷戦構造で対立していた、という時代背景があった。日本でも、九州大学が1958年頃に日・英・独の3ヶ国語の相互翻訳コンピュータ「KT-1」を制作した。

CSSCの概要 出典:CSSC(クリックすると拡大します)
ホワイトハウスのページをGoogle翻訳で日本語にしたもの。細かい言い回しはともかく、概要はつかめる(クリックすると拡大します)

 機械翻訳の原理は「ルールベース翻訳」と「統計的翻訳」の2つに分類できる。文章を単語に分け、名詞や動詞を判断して文法に沿って組み立てなおすのが「ルールベース翻訳」。文法がしっかりしていれば翻訳精度が比較的高い。エキサイト翻訳はルールベース翻訳でサービスを提供している。

 一方の「統計的翻訳」は、膨大な文章を分析して、特定の単語に続く確率が高い単語を組み合わせながら翻訳を行うものだ。「統計的翻訳」は、コンピュータのスペック向上とともに発展した。ものの数秒でWEBページをまるごと翻訳するgoogle翻訳も、統計的翻訳を利用している。翻訳精度には若干の難はみられるものの、文章の概要をつかめるまでの水準である。


ビッグデータを使った自然言語処理


 近年では、SNSなどで蓄積されたビッグデータを利用した自然言語処理に注目が集まっている。WEB検索では、キーワードに関連する評価の良しあしの分析や、キーワードの盛り上がりを調べる「トレンド分析」を自動で行うツールもある。顧客のニーズを客観的に分析することで、製品開発などへ活用されている。

また、SNSでのコミュニケーションが浸透してきた中で、通常の文章とは異なるSNS独自の言いまわしなども自然言語処理の研究対象になっている。自然言語処理を利用したサービスは進化の一途をたどっている。

(中西 啓)

「自然言語処理」が出てきた記事

自然言語処理とテキスト情報(2014/2/10)

【関連カテゴリ】

その他