ドキュメントスキャナfi-6130zで簡単PDF作成 縦書き編

自炊

前回の記事

管理人いぬたろうも fi-6130z でOCRがかかったPDFを作成していますが、OCRをかける上で気になるのは変換精度でしょうか。当然できるだけ正確に変換して欲しいものです。

自炊書籍でOCR精度を高くする条件として、スキャン時に原稿の傾きが無く、白背景黒文字(もしくは白背景に濃い色文字)、高解像度が必要なのは経験上わかりました。

また縦書きは横書きに比べて変換精度が低いという認識も個人的にはありました。

ですが日本語書籍である以上縦書きは避けられません。小説なんかも含めて文字中心の書籍は縦書が多いのでOCRの精度が低ければ利用範囲も狭まってきちゃいます。

で実際縦書と横書きではどの程度の変換精度が変わるのかという事を今回検証してみたいと思います。

縦書き書籍をにOCRがかけられたPDF作成

前回同様出来るだけ手をかけずに簡易な ScanSnapMode でPDFを作成します。特に設定等はいじくりません。

縦書き書籍サンプル

tatepdf_001

iPad上で iBooks で表示しました。およそ700文字前後の文章です。

OCR変換の結果ですがルビを含めてほぼ100%正確に変換されました。

横書き書籍サンプル

tatepdf_002

およそ800文字前後の文章です。

OCR変換の結果ですが1~2箇所余計なノイズのような誤変換がありました(本来入っていない文字が挿入されている感じもの)、約99%正確という感じでしょうか。

この検証結果だけで言えば縦書でも横書きでもノイズのような誤変換はあるものの、本来の文章自体は正しく変換されているので実用上は問題ないと言ってもよいのかなと思います。

誤変換が多かったもの

tatepdf_003

●手書き文字……は当然文字として認識出来ません。

tatepdf_004

●数字の表……意外にも数字が並んだ表は正確に変換出来ません。特にこのような表の場合、数字が横並びなのか縦並びなのかが判断できていないです。

まとめ

●今回検証してわかった事として縦書にしろ横書きにしろ文章をただ単純にOCR変換するだけであればかなり実用的なレベルではあるのかなと感じました。

ただ書籍のレイアウトによって文章の順番が入れ替わったり、日本語として意味不明であったりなんて事がままありました。

元原稿の状態もありますし全てが100%正確にOCR変換されるなんて時代は来ないと思うので、そこは使い所というか割りきりが必要かもしれません。

タイトルとURLをコピーしました