いかに自分が必要としている情報を効率的に引き出すか―。インターネットの普及、科学の高度化、分野の細分化・深化などにより爆発的に増え続けている膨大な情報・知識の中から、目的の情報にたどり着くことは、日々困難になっている。
こうした問題を、「情報を視覚で体系的に捉える」ことで解決に導くのが、東京大学大学院工学系研究科特任准教授の美馬秀樹氏が中心となって開発した検索システム「MIMAサーチ」だ。新たな検索システムであるMIMAサーチはどのような可能性を秘めているのか、美馬氏にお話をうかがった。
MIMAサーチ開発に携わるきっかけ
「MIMAサーチ」とは、美馬氏を中心に開発された「知の構造」を可視化するシステム。入力されたすべての情報を、最先端の自然言語処理技術*1で自動解析する。語句を入れて検索を行うと、入力された情報を元に検索対象語句との関連性が点と線でビジュアル的に表現される、というものだ。
このシステムは現在、東京大学工学部のシラバス検索に利用されている。学生が自分の取り組みたい分野の単語を入力すれば、関連する講義名が検索されるようになっており、900以上ある工学部の講義の中から効率的に受けたいものが選べるようになっている。
|
東京大学工学部のシラバスで使われているMIMAサーチ(東京大学工学部シラバス構造化システムHPより引用)
キーワードに「コンピュータ」と入力したところ。コンピュータに関連する様々な講義が、相関的に表示される。紙媒体のシラバスでは不可能に近かった講義ごとの関連性の把握が容易にできる。
(クリックすると拡大します) |
―MIMAサーチの開発に携わるきっかけは何だったのでしょうか。
- 美馬氏 もともと前職で、仮名漢字変換、質問応答や機械翻訳ソフトウェアの開発に携わり、自然言語処理技術に関する研究をしていました。そこでの研究の中心は、与えられた表現と意味の類似した表現を、過去に記憶したパターンから探し出すことができるか、というものです。
例えば、ワープロの使い方に対する質問応答では、「ファイルを削除する方法は?」という質問が入力されたとき、過去に同じようなやりとりがされたかどうかを記憶しているパターンから探します。削除の対象がファイルなのか、それとも文章や図形なのか、“削除する”のかわりに“消す”と言ってもいいのか、要するに、ある表現や文章について過去にどういう応答をしていたか、「類似性」を読み取っていく、ということです。
その後、ATR(国際電気通信基礎技術研究所)で音声翻訳の研究をしましたが、「類似性の追求」という基本的なアプローチは変わりませんでした。
これらの研究を検索機能にも応用してみようと始まったのがMIMAサーチです。検索の基本は「最初に入力したキーワードや検索質問が、検索対象とどれだけ類似しているか」です。ここでも、自分の探したいこと(検索質問)と実際の検索結果がどれくらい似ているか、を計算することが当然必要になってきます。加えて、この類似性をどう表現するかという「検索結果の可視化」がMIMAサーチの目指すところでした。
|
美馬秀樹 東京大学工学系研究科特任准教授 |
―MIMAサーチが形になるまでどれくらいの時間がかかったのでしょう?
- 美馬氏 開発に取り組み始めたのは、もう15年くらい前でしょうか。最初は検索結果の類似度を、高いものは青、低いものは赤、という具合に表示していました。しかし、検索結果同士の類似度をどう見せるかに関してはまだ不十分でした。
その後、知識抽出技術(テキストから有用な特徴を取りだす技術)の研究成果の統合や、可視化にあたっての計算機能力の発達などを経て、形になったのは2002年頃ですね。ここからさらに抽象化(トピック分析)やクラスタ分析*2などをMIMAサーチに組み込めたのは2004年頃です。
―検索結果の可視化について、インターネットが日本で一般的になる前から取り組まれていたのですね。
- やはり、1つの研究が成果になったり、あるいは製品化されたりするまでには10年くらいはかかるものですね。早すぎる技術は、なかなか受け入れられないものなのでしょう。
次世代の教科書「クラウドテキストブック」と岩波書店の『思想』構造化プロジェクト
東大工学部のシラバスで使われているMIMAサーチのほか、美馬氏は、誰でもネット上で編集できる百科事典「ウィキペディア」で使用されているWikiシステムを、電子教科書システムと組み合わせた「クラウドテキストブック」の研究を進めている。MIMAサーチを使用することで学問分野を横断して知識を関連付けることに加えて、教科書自体をWEB上で直接編集できるため、最新の研究成果などが「出版」などの手順を経ることなくすぐに教育に反映される利点がある。
09年1月現在、東大工学部の講義のうち、環境・エネルギー、ナノバイオ関連14科目・105項目についてデータ化、構造化がなされ、576ページにわたる「クラウドテキストブック」として活用段階に入っている。WEBという垣根の低さやリアルタイム性を活かし、小学校~高校教材への応用も考えられている。
|
小学校用クラウドテキストブックのデモンストレーション版。キーワードに「自動車」と入力したところ。自動車について理科分野と社会分野を俯瞰的に見ることができる。出てきた結果のうち、例えば「公害」をクリックすれば、Wikiの画面で項目の解説が表示される仕組みとなる。(美馬氏提供資料を元に作成)
(クリックすると拡大します) |
―「クラウドテキストブック」はこれまでの教科書の概念を覆すものですね。
- 美馬氏 従来の「理科」や「社会」のような、トップダウンで割り振られた科目では「目の前にある社会問題や課題に対して学ぶべきものは何か」といったことに十分対応できません。現実の課題に対して、どういうことをやらなければいけないのかを自分で見つける力を身に付けさせることが、今後の教育に必要なのです。
例えば「高齢化」や「環境」のような問題を解決するためには様々な知識を必要とします。「高齢化」という問題1つ取り組む際にも、医療だけでなくエネルギーや経済の問題なども同時に考える必要があります。様々な要素が組み合わさってくるわけですから、「理科」「社会」という縦割りの教科体系のみで教えていたのでは対応できなくなってしまいます。
つまり、小学校から始まる教育でも「どういった教え方をすれば課題にアプローチできるか」を考え、議論することが重要になってきます。足し算や掛け算など、基礎的知識を習得する学年や枠組みの再構築も、将来的には重要な課題になってくるでしょう。
「クラウドテキストブック」は、単純にWEB上で教科書を見られる、というだけではありません。従来のeラーニングにあるようなビデオとテキストの融合ではなく「課題解決的思考」を支援するためのツール、という位置付けです。雲のなかに無数にある知識を、目的に沿って分野横断的に集めてくるダイナミズムがそこに具現化されていると考えています。