OCR

スキャナで文章を読み込み、ワープロソフトで編集可能な文字データに変換してくれるソフトのことです。エー・アイ・ソフト社の「読んde!!ココ」や、メディアドライブ社の「e.Typist」等、各社から出ています。スキャナを買うと附属CD-ROMに入っている事も多いです。

しかし、ソフトの宣伝文句は少々大袈裟なきらいがあります。カタログを見ると、あたかもスキャナで取り込んだ原稿が全くの全自動で綺麗なワープロ文書(それも文章・表・イラスト・レイアウトが9割方再現されている)に変換されるかのように思えてきますが、これは全くの幻想です。実際には、文章の誤字脱字はあちこちあるし、レイアウトの再現に至ってはまず期待しない方が良いでしょう。文章や表の段組・枠組を誤認識して順番が滅茶苦茶になっていることもあり、結局最終的には人間の手で修正しなければならないこともしばしばあります。

OCRは全く実用にならないと言っているわけではありません。文章ばかりの活字原稿に関して言うなら、一から手入力するよりは楽なのは確かですから、OCRを活用することをおすすめします。しかし過度の期待は持たない方が良いでしょう。文字の手入力の手間を何割か省くことはできても、全部省くことはできません。レイアウトの再現も苦手です。

次に、OCRは活字のかすれ・つぶれに敏感です。書籍やワープロ文書の生原稿は99%以上の認識率であっても、そこからコピーした原稿は認識率が低下します。特に孫コピー、曾孫コピーとなると、ほとんど認識出来ないという場合もあります。背景が真っ白とか薄い色ならいいのですが、網掛けや模様の入った背景の上にある文字は、ほとんど認識できません。原稿の状態によっては、OCRを使うのをあきらめて、一から手入力した方が早いことがあります。

また、OCRは一般に活字しか対応していないことが多いので注意してください。手書き文字を読み込みたいのなら、手書き文字用のOCRソフトがあるにはあるのですが、活字用より高価です。手書き文字OCRは原稿用紙のように升目に正しく書いた文字を読み取るよう設計されているので、大学ノートや便箋に書いたメモを読み取る目的には残念ながら適していません。

*)戻る