OCR(スキャナあれこれ)

ScanSnapのMac対応について書いたが、ま、従来ドキュメントスキャナ全滅状態を考えれば画期的な話だとおもう。
しかし、冷静に考えてみればVMwareが使えるわけだから、別にWindows版を使っても差し支えないわけだ。というか、私は、VMware前提だからすべてのデータはNASで運用している。そのせいもある。(Mac対応版の開発は大歓迎)

で、Windows版とMac版では微妙に違うようだ。職場にWindows版を使っている人がいたので、比較対照してみたところ、

1, Windows版ではtext-PDFが作れる。(検索可能なPDF)Mac版ではだめ。
2. Mac版ではJpeg読み込みができる。Windows版はPDFのみ。
3. Windows版では管理ソフトでOCRを行って後からtext-PDFにできる。ただし、Scansnapで読み込んだPDFだけしか対応していない。

なんなんでしょうね。この微妙な帯に短したすきに長し、の感じは。

違いのポイントはどうもOCRにある。
このOCRってやつ、最初にPaperPortーStrobeを導入した頃、認識率がいまいちでほとんど使ってこなかった。300DPIだとスキャン速度が遅くって快適感がなかったこともある。
OCRそのものも飛躍的に進歩しているようだ。手元には数種類の(古い)OCRソフトがあるので最新のOCRの優秀さを実感できる。で、ScanSnapManger(Windows版)のOCRエンジンは優秀な部類にはいると思う。300DPIでの認識率はなかなかのものだ。
またScanSnapは300DPI(ファイン)でもノーマルとスキャン速度はそれほど変化はない。
問題はOCR認識時間を含めたトータルとしてスループットがどうかである。また300DPIにすることによるデータ量の増加も考える必要があるかもしれない。
確かにOCRデータが入っていると便利は便利である。ないよりはある方がいいと思う。
しかし、すべてのデータで必要なわけではないとも思う。OCRデータがあって便利なのは名刺や年賀状、手紙など。一方職場でので紙で回ってくる文書は、定型的なものはフォルダにまとめて日付ファイル名で十分だし、議事録のたぐいはファイル名で整理してしまうのでOCRの必要はない。実際には最近は通達事項などメールの方が増えてきているから昔ほどスキャンしなきゃいけない書類は減っている。

やっぱり一番スキャン時OCRの恩恵を受けられるのは名刺かな。もともとデータ量が小さいから300DPIでも問題はないし、認識しなきゃいけないテキストも多くない。スキャン時にOCRを行ってもそれほど負荷にはならないのでスループットを気にすることもない。

と、なると当面、Windows版を買う方が便利かなぁ。PaperPortでももtext-PDFへの変換は簡単にできるのでどっちでもいいのかもしれない。Mac版にいい日本語OCRエンジンがあれば問題は解決なんだが。

S300は小さい紙だといいんだけど大きくて薄い紙だとやや読み込みに問題がある。A4だとすこしずれる傾向にあるのだ。そういうことを考えるとすこし大きくなるがS510の方がいいのかもしれない。だったらキャノンの方だとA3二つ折りが簡単に読めるからそっちのほうがいいのか? キャノンの2510Cはどうなんだろう…