近年、国文学の研究対象となるような文学作品のデジタル化が急速に進んでいる。しかし、まだまだデジタル化されていない作品も少なくない。それらについては、自分で入力するしかない。 その入力方法は2つある。 1つは、OCRを利用するもの。もう1つは、タイピングで入力するもの。
OCRというのは、スキャナーで文字を画像として読みとり、それをソフトウェアがデジタル文字に置き換えてゆくというものである。
OCRソフトの認識率(画像としての文字をデジタル文字に置き換える時、正しく置き換える率)は、一般の活字文書の場合で95%を超える。漢字が多かったり、版面が汚れていたり、ルビが振ってあったりすると当然認識率は落ちるが、それでも90%以上の認識はしてくれるのではなかろうか。たとえば、ルビを消したり、割り注箇所を削除するなどの下処理がしてあれば、日本歌学大系の版面で、だいたい90%近い認識率を示す。
作業時間は、それほどたいしたことはない。1頁の認識に約2分(オートの場合)。しかし、余計な部分の消去などの下処理をしていると、約4分くらいかかる。 一般的に言って、長文・漢文等に有効である。漢文など漢字の多い文書は、かな漢字変換の効率の関係で、自分の指でタイプして入力するのがめんどうである。普通のかな漢字変換では漢字が出てこなくて、特別な作業をしないと漢字を入力できないことが少なくない。OCRの場合は、それが簡単な文字か、難しい文字かなどということは無関係に変換してくれる。 文章の形式としては、シンプルなのものが望ましい。
前記のとおり、誤読は避けられないから、校正が不可欠。ただし、これは一般の校正よりもやっかいである。
これは、もうタッチタイピングを覚えて、それでがんばるだけ。
OCRを使うにしろ、自らの指で入力するにしろ、たいていの場合は、すでに活字印刷されたテキストを入力することになる。
不特定多数への配布や、他人への譲渡は許されない。
←戻る |