ocr

自分で入力

　近年、国文学の研究対象となるような文学作品のデジタル化が急速に進んでいる。しかし、まだまだデジタル化されていない作品も少なくない。それらについては、自分で入力するしかない。
　その入力方法は２つある。
　１つは、OCRを利用するもの。もう１つは、タイピングで入力するもの。

OCR

　OCRというのは、スキャナーで文字を画像として読みとり、それをソフトウェアがデジタル文字に置き換えてゆくというものである。
　この作業には、パソコン本体のほかに、OCRソフトとスキャナー（光学的画像読みとり装置）が必要である。OCRソフトとスキャナーは、各メーカー・ソフト会社からさまざまなものが売り出されている。日進月歩の世界だから、どれが良いと言うことはなかなかむずかしい。その時々のよく売れているものを買っておけば、それほどまちがいはなかろう。わたしは、OCRソフトは「e-typist」、スキャナーはシャープのものを使っている。たぶん比較的ポピュラーなもののはずである。

　OCRソフトの認識率（画像としての文字をデジタル文字に置き換える時、正しく置き換える率）は、一般の活字文書の場合で95％を超える。漢字が多かったり、版面が汚れていたり、ルビが振ってあったりすると当然認識率は落ちるが、それでも90％以上の認識はしてくれるのではなかろうか。たとえば、ルビを消したり、割り注箇所を削除するなどの下処理がしてあれば、日本歌学大系の版面で、だいたい90％近い認識率を示す。
　「90％」という認識率はかなりのものだと思うが、実際の作業をしてみると、誤読だらけという印象を持つ。
　それもよく考えてみれば当然で、90％の誤字というのは、一行につき5字くらいのまちがいということになる。一頁あたりにすると、100字を超える。しかし、これくらいは、しかたないのではなかろうか。
　なお、ソフトには学習機能があり、最初の１０頁くらいは学習させながら作業を進めると、以後、認識率がかなり高まる。

　作業時間は、それほどたいしたことはない。１頁の認識に約２分（オートの場合）。しかし、余計な部分の消去などの下処理をしていると、約４分くらいかかる。

　一般的に言って、長文・漢文等に有効である。漢文など漢字の多い文書は、かな漢字変換の効率の関係で、自分の指でタイプして入力するのがめんどうである。普通のかな漢字変換では漢字が出てこなくて、特別な作業をしないと漢字を入力できないことが少なくない。OCRの場合は、それが簡単な文字か、難しい文字かなどということは無関係に変換してくれる。

　文章の形式としては、シンプルなのものが望ましい。
　ルビなど、傍記があると認識できない。それらを消去する下準備は画面上で簡単に行えるが、その分の手間がかかる。

　前記のとおり、誤読は避けられないから、校正が不可欠。ただし、これは一般の校正よりもやっかいである。
　もともと形が似ているから、デジタル化する際に文字をまちがえているので、人間の目で校正しても、その誤りになかなか気づかない。どうしても画面上だけではなく、プリントして校正する必要がある。

タイピング

　これは、もうタッチタイピングを覚えて、それでがんばるだけ。
　必要な本文を入力する作業をすることによって、タッチタイピングに慣れることもある。タッチタイピングの練習に最適かもしれない。

著作権をめぐる問題

　OCRを使うにしろ、自らの指で入力するにしろ、たいていの場合は、すでに活字印刷されたテキストを入力することになる。
　そこで生じてくるのが、著作権の問題である。
　これは、厳守されなければならない。

　不特定多数への配布や、他人への譲渡は許されない。

←戻る