文化資源を“デジタル”で残す
~デジタルアーカイブの現場~
馬場章 東京大学情報学環教授
2012/9/6  2/3ページ

 立体物に関しても同じです。テキストデータと画像データ。それから3Dデータ。それから音声データも独特のデジタル形式を持っています。だから、この世の中で物理的に異なった形式で存在しているというのは、それをデジタル変換した場合でも異なるデジタルデータの形式になるということになります。


 そこで生まれてくるのは異なるデジタルデータの形式を別々のシステムで見ていると不便だ、ということです。そのためデータを統合する「統合デジタルアーカイブシステム」というものをつくりました。これはテキストデータ、画像データ、音声データなど異なる形式のデータを、1つのサーバのなかに区切っていれ、かつ、1つの検索機能で引っ張ってこられるシステムで、今から5年ほど前に作りました。


―画像でしたら検索のためのメタデータをつけていくような感じでしょうか?

馬場氏:キモはメタデータですね。画像だけではなくて、テキストに関してもどういうメタデータをつけていくか。デジタルデータの形式が違っても、メタデータのフォーマットを共通化させれば、1つの検索エンジンで引っ張ってくることができます。ところが、このメタデータのフォーマットを決めるのがなかなか難しいわけです。


 もちろん“世界標準”になっているやりかたもあるのですが、それが何通りにもわたり、メタデータの分量が増えてしまうと、今度はメタデータを検索しているだけで時間がかかってしまいます。そのため、できるだけ少ない小さなメタデータでデータ全体を表現できるような、そういうフォーマットを作り出すように工夫しています。


デジタルデータで表現が難しい情報は
メタデータに入れると馬場氏は語る
デジタルデータで表現が難しい情報は メタデータに入れると馬場氏は語る

風合いや紙質はメタデータで

―絵画1つとってもどんな紙に書かれているとか、裏紙に何が使われているとか、どんな顔料を使っているかとか、そういうデータもあると思いますが、そういうデータもメタデータでまとめるのでしょうか?

馬場氏:紙質や風合いなどといった情報を、私たちはすべてメタデータのなかに入れてしまいます。原資料に応じて様々なデータ形式が存在しますが、それらにはメタデータとして共通している箇所と、資料の特質に応じて追加する箇所があります。基本的に検索をする際には、共通している箇所にエンジンを走らせます。


 ただし、紙質…日本語で言うところの「風合い」などをデジタルデータで表現するのは非常に難しい。モナリザの写真を撮ってデジタルデータで保存すると言っても、撮影の際の環境や設定によって、全く違う画像になる。表示するモニタによっても、印刷するプリンタによっても印象が違ってきてしまう。基本的には太陽光をあてて、色を計ったうえで、それを数値化してあらわす、ということしかできません。


 残念ながら今のデジタルデータでは完全にオリジナルに忠実なものを再現することはできません。そこは言葉で補うしかありません。現在のところ画像検索といっても、結局は画像の特徴を言語化してそれを検索しているわけです。将来的には、本当に明るい印象の絵を「明るい印象」という人間の感性だけで検索できるようにするところまでいくかもしれない。そのためには、デジタルデータの仕組みの方をもう少し工夫しなければいけなくなるでしょう。

>>海外と日本のデジタルデータへの意識の差

【関連カテゴリ】

トレンド