セミナーレポート

コンピュータの「聞く力」

音声認識技術の現状を京大教授が解説

2014/1/20

 人型ロボットと人間の会話を「宇宙」で行った――。これは2013年12月に、ISS(国際宇宙ステーション)に滞在している宇宙飛行士の若田光一氏が行った実験プロジェクトの1つだ。

 京都大学東京オフィスで定期的に行われている、同大学研究者による講演「品川セミナー」。2013年12月6日は、衆議院の会議録作成システムなどに携わっている河原達也教授が、コンピュータの「聞く力」と言える、音声認識技術について講演を行った。

初期の音声認識技術を解説する河原氏
初期の音声認識技術を解説する河原氏

「音声タイプライタ」研究は1960年代から始まった


 初期の音声認識システムは、京都大学で1962年に作られた「音声タイプライタ」と呼ばれる機械だ。大きさは大型計算機並みであったものの、単音節(「あ」、「お」など)で声を認識する、原始的なものだったという。


 その後はコンピュータの性能向上とともに、音声認識の研究も進んだ。1994年には河原氏らが音声認識を利用したスケジュール管理システムを行う「秘書システム」を開発する。これは現在のスマートフォンのアシスタントソフトでの原初版ともいえる。


利用者:「会議を2時に行う」
システム:「何時までですか?」
利用者:「4時」
システム:「どこで行いますか?」
利用者:「大会議室」
システム:「大会議室で、2時から4時まで、ですね? 予約が完了しました」

と、コンピュータと会話をしながらスケジュールを登録できるものだ。


 当時はコンピュータのスペックの問題で、人間がしゃべってから10秒程度待たないとコンピュータ側からレスポンスが来ないなど、実用化には厳しかった。ただ、「スケジュールやリマインド等、現在スマートフォンに組み込まれているようなコンセプト」(河原氏)で設計されたものでもあった。

音声認識の課題を解説する河原氏   講演に耳を傾ける参加者
音声認識の課題を解説する河原氏   講演に耳を傾ける参加者

スマホは音声を処理していない?


 音声タイプライタの誕生から50年あまり。現在は音声認識の技術は飛躍的な発展を遂げている。「Siri」や「しゃべってコンシェル」等にも見られるように、手持ちの機器で手軽にできるようになっているが、これには「からくり」がある。


「見かけはスマホで(音声認識処理を)やっているように思えるが、実際はクラウド上のサーバが処理している」(河原氏)のである。高い精度の実現には、やはりそれなりの処理能力と巨大なデータベースが必要なのだ。


 これらで利用されている意図理解技術は、基本的にパターンマッチングに基づいている。キーワードとなる単語をピックアップし、「行く」という声が認識されたら「地図案内」を、「晴れ」とか「雨」とかが出てきたら「天気情報」を、という具合にパターン化していくのだ。


 2007年に河原氏らが作成した音声ガイドシステムは、京都観光に特化したもの。関連するウィキペディアの記事を知識ベースとして、京都各地の名所・旧跡などを紹介するものだ。人間の方から一定時間何も言わない「無音区間」を検出すると、システム側から話題が提供される、という機能も加えた。無音になる直前の会話に登場した観光地に関する話題や質問を提示することにより、自然な会話に近い対話システムにした。


課題残るコンピュータの「聞く力」


 一方で、会議や講演などを自動的にテキスト化する音声認識システムもある。テレビの生放送を字幕にする場面では、認識精度は95%程度だ。河原氏らが開発した国会審議の音声認識は90%程度の精度を実現している。


 ただ、技術は向上しているものの、やはり限界はある。放送や国会などでの発言は、比較的はっきりとした話し方だが、普段人間同士が行うような自然な会話での正確な音声認識はおぼつかない。人間の声以外の騒音がまぎれると、認識精度が下がってしまう。


 加えて文化的な背景の組み込みも必要だ。「Siriに『ジャイアンツの試合結果』と聞いたら、米国メジャーリーグのサンフランシスコ・ジャイアンツの試合結果が提示されてしまった」(河原氏)ということも。


 文字認識と違い、「万能のシステムがない」(河原氏)音声認識ではあるものの、コンピュータの「聞く力」が向上するような技術革新は、それだけで人をワクワクさせる。ブレークスルーを期待したい。

(中西 啓)

【セミナーデータ】

イベント名
:京都大学品川セミナー
主催   
:京都大学
開催日  
:2013年12月6日
開催場所 
:京都大学東京オフィス(東京都港区)

【関連カテゴリ】

クラウド