寄稿
電子書籍の近未来
三田誠広 作家・武蔵野大学教授
2012/10/29  1/2ページ

【第3回】テキスト文書の問題点

三田誠広氏 三田誠広氏
作家・武蔵野大学教授・日本文藝家協会副理事長。1948年、大阪生まれ。早稲田大学文学部卒。1977年、『僕って何』(角川書店)で芥川賞受賞。作品は『いちご同盟』(集英社)『空海』(作品社)など多数。2011年より武蔵野大学教授就任。

キンドルなど電子書籍端末が登場し、その存在に関心が高まっています。デジタル化の流れに対応していく書籍や、そうした環境下での著作権保護の動き、さらには電子書籍の将来について、芥川賞作家で武蔵野大学教授・日本文藝家協会副理事長の三田誠広氏に解説していただきました。第3回はテキスト文書の問題点についてです。


RPAツール・AIHH

テキスト文書への変換

本のページをデジカメで撮ると画像になる。画像をOCR(Optical Character Reader/光学式文字読取装置)ソフトで解析すれば、ただちにテキスト文書になる。テキスト文書があれば、TTS(text-to-speech)ソフトで合成音声による読み上げも可能だ。こんなふうに思い込んでいる人が、ネット業界には少なくない。しかし、ここで述べたのは、英語など、アルファベットを使用する言語に限られるということを、ここでは強調しておきたい。そして、キンドルに代表される米国の読書端末の普及は、英語だけの特性だと考えていただきたい。

 日本語の場合、漢字の読み取りが難しいだけでなく、「は」と「ば」と「ぱ」の区別ができず文法解析が不可能になるケースが少なくない。わたしは国立国会図書館でのOCRの実験に参加したので、日本語解析の難しさを痛感している。文法解析ができなくても、ある程度の漢字が識別できれば、インデックスとしての利用価値はあるのだが、画像からテキスト文書を作る場合は、人手をかけて校正をする必要が生じる。

 パソコンがいまのように発達する以前から、印刷所ではコンピュータを使用していた。そこにデータが残っていれば利用できるかというと、これも簡単ではない。日本では長くJISの第2水準までの文字しか使用できない状況が続き、それ以外の文字は印刷所ごとに外字を作って対応してきたので、まったく互換性のないデータしか残っていないのだ。パソコンがユニコードを使用するようになって、ワープロで出ない文字はほとんどなくなったのだが、それでもまだ問題は残っている。

変換による問題点

 たとえば「噂」という文字。いま実際にこの文字をわたしは自分のワープロで打っているのだが、これをメールで送った場合、編集者のパソコンでどのように表示されるかは出たとこ勝負というしかない。ここからの話はあくまでも明朝体の場合に限られる(ネット上ではゴシックが用いられるので問題は生じないと思う)。口ヘンに尊敬の「尊」というのが「噂」という文字だが、この「尊」という文字が単体の場合は、1画目と2画目はカタカナの「ソ」になる。口ヘンをつけても同じはずなのだが、編集者のパソコンが最新式なら、1画目と2画目は「八」になっているはずだ。どうしてそんなことになってしまうのだろうか。

明朝体の「尊」と「噂」。最新のPCでは色の付いてる部分が「ソ」「八」とそれぞれ異なる
明朝体の「尊」と「噂」。最新のPCでは色の付いてる部分が「ソ」「八」とそれぞれ異なる

 江戸時代に隠元禅師という中国(明)の高僧が、インゲン豆とともに大量の経典の版木をもって来日した。そこで使用されていたのが明朝体の文字である。明治になって活版印刷になってもこの明朝体の文字が用いられるようになったのだが、もともと版木を彫るために考案された文字なので、この文字にはクセがある。「尊」の1画目と2画目を「八」にしたのも明朝体のデザインなのだ。

>>明朝体特有の問題が電子書籍にも…


RPAツール・AIHH

【関連カテゴリ】

トレンドその他