OCR

突如OCR(紙に書かれた文字の認識技術)に興味が.そういえばこないだelbくんに「どうせ数式とかむりぽ」って話したんだが,数式を読めるOCRが無償でダウンロードできるようだ.まだ試してないが,とても面白そう.

InftyReader Ver.2.4.3i (2005/11/15版)

説明 数式を含む印刷文書を認識し、InftyEditor や LaTeX などで編集できるデータに変換します。

でもこういうのって企業の売り物の方が余程進歩してるから,いっぺん有名な製品を金払って買って「こんなに進んでるのか」ってのを最初に経験しといた方がいいのだろうなぁ.
しかし昨年だったか,医学科の友人が「統計の課題で分析用データを紙で渡されて,手入力が面倒だったから*1フリーソフトウェアOCRを落として使った」と言って2つばかり教えてくれた.それはアルファベットと数字程度しか認識できないものだったから我々日本人の日常生活にはまず役立たないけど,OCRなどと言う企業のマンパワーの要りそうなものでもフリーソフトウェアとして提供されているということに驚いた.
さてGoogleや無料エンタテインメント系ポータルサイトCiteseerでちょっと調べたところ「二値化にはNiblack法がよく使われる」ことを知った.例えば綴じ込まれた本をスキャンしたとき(光源の影響を受けがちな,手持ちのカメラで撮った画像を考えてもよい),紙の右から左に向かって画像が暗くなってたりすると,閾値の設定に悩むことになる.そこで数mm区画に画像を区切って二値化しよう,というものだ*2.別に使うあては特にないんだが一応書いておく(笑).つーかOCRの本質はその後なんだよな... Trier, Jain and Torfinn, Feature Extraction Methods For Character Recognition: A Surveyから読み始めて知識を広げるといいらしいが,もう十分(笑
どうでもいいが,Google検索結果をクリックしてみたらIEEEとかの有料サイトの論文だったりすると激しく萎える.

*1:とは言うものの,OCRソフトを探して落としてインストールして試すことの方が傍から見れば余程面倒であって,つまりは彼はそういうのが好きな人だって訳.

*2:簡素な解説 (PDF).小区画での平均と標準偏差を計算するだけらしい.もう少し詳しい紹介と比較 (PDF).Niblack法は広い空白に弱いとか書いてある.