OCRで文字認識できない5つの原因と実践的な対策

スキャンしたPDFや画像に対してOCRを実行したのに、文字がうまく認識されなかったり、意味不明なテキストが出力されたりすることがあります。OCR（Optical Character Recognition＝光学文字認識）は万能ではなく、入力データの品質・言語・フォント・レイアウトによって精度が大きく変わります。本記事では、OCRが失敗する代表的な5つの原因を整理し、それぞれの具体的な対策を解説します。適切な前処理と設定を行うことで、認識精度は大幅に向上します。

原因1：スキャン解像度が低い

OCRが最もよく失敗する原因は、入力画像の解像度不足です。OCRエンジンは文字の輪郭を分析してテキストを判別しますが、解像度が低いと輪郭が不鮮明になり、「8」と「3」、「l」と「1」のような似た文字を誤認識します。一般的にOCRには最低200DPI、精度を高めるには300DPI以上が必要です。スマートフォンで撮影した書類をそのままOCRにかけると、撮影距離や角度によっては100DPI以下相当になることもあります。

1スキャナーを使う場合は300DPI以上でスキャンする設定を確認する
2スマートフォン撮影の場合、書類に対してできるだけ垂直に近い角度で撮影する
3撮影後にトリミングして書類部分のみを拡大した画像を作成する
4OCRツールに入力する前に、画像編集ソフトで解像度を確認・調整する
5LazyPDFのOCRツールはブラウザ内で前処理を最適化して処理するため、そのままアップロードも有効

原因2：言語設定が合っていない

OCRエンジンは言語ごとに異なる文字パターンデータベース（言語パック）を使って認識を行います。日本語のPDFに対して英語の言語設定でOCRを実行すると、ひらがなや漢字を全く認識できず、記号や無意味な文字列が出力されます。反対に、英語・数字のみの書類に日本語設定を使っても認識精度が下がることがあります。使用するOCRツールで対象言語を明示的に選択することが重要です。LazyPDFのOCRツールは日本語を含む多言語に対応しており、言語を指定してから実行することで認識精度が大きく向上します。複数言語が混在する文書（日英混在など）の場合は、両言語を選択できるツールを選ぶとよいでしょう。

原因3：画像が傾いている・ノイズがある

スキャナーで紙を少し斜めにセットしたり、古い書類でシミやシワがある場合、OCRの認識精度が著しく低下します。傾き（スキュー）が2〜3度あるだけでも、文字列の区切りやベースラインの検出が乱れ、誤認識につながります。また、背景の汚れ・影・透け・スタンプなどのノイズが文字と混同されることもあります。対策としては、スキャン前に書類を平らにセットし、スキャナーの自動傾き補正機能を有効にすることが基本です。撮影した場合は影が入らないよう均一な照明を使い、できるだけ書類に垂直なアングルで撮影します。

1スキャナーの「自動傾き補正（Deskew）」機能を有効にしてスキャンする
2照明を均一にし、影が書類にかからないようにして撮影する
3書類を平らな面に置き、折れやシワを伸ばしてからスキャン・撮影する
4OCRツールの「ノイズ除去」オプションがあれば有効にする

原因4：特殊フォントや手書き文字が含まれている

一般的なOCRエンジンは印刷された標準的なフォントの認識を得意としています。しかし、筆記体・装飾フォント・変わった書体・手書き文字などは認識精度が大きく下がります。日本語の場合、楷書体・毛筆体などの特殊フォントや手書きの漢字は、機械学習モデルが対応していない字形が多く、誤認識が多発します。手書き文字専用のOCR（HTR：Handwriting Text Recognition）機能を持つツールを選ぶか、手書き部分のみ手動でテキスト入力する方が正確な場合があります。

原因5：PDFがテキストレイヤー付きで混乱している

一部のPDFはスキャン画像の上にすでにテキストレイヤーが埋め込まれています。このようなPDFにOCRをかけると、既存のテキストと新たに認識したテキストが二重になり、出力が乱れることがあります。また、保護・暗号化されたPDFではOCR処理自体ができない場合があります。まずPDFをJPGなどの画像に変換してからOCRをかける「画像化→OCR」のワークフローが有効です。LazyPDFではPDF→JPG変換とOCRを別々のツールとして提供しており、この二段階処理を簡単に行えます。

よくある質問

OCRで日本語を正しく認識させるにはどうすればよいですか？

使用するOCRツールで「日本語」を言語として明示的に選択することが最重要です。また、スキャン解像度を300DPI以上にし、画像の傾きやノイズを除去してから処理するとさらに精度が上がります。

OCRで認識できるフォントの種類に制限はありますか？

はい、あります。一般的なOCRは明朝体・ゴシック体などの標準印刷フォントは高精度で認識できますが、筆記体・毛筆体・手書き文字は精度が下がります。手書き対応のOCRツールを選ぶか、手動入力を併用することを推奨します。

OCRのテキスト認識精度を数値で把握する方法はありますか？

一部の高機能OCRツールは信頼スコア（Confidence Score）を出力します。一般ツールでは出力テキストを原文と見比べて手動確認するか、サンプルページで精度をテストしてから本番処理に進む方法が実用的です。

LazyPDFのOCRツールは日本語に対応していますか？

はい、LazyPDFのOCRツールはtesseract.jsを使用しており、日本語を含む多言語に対応しています。日本語テキストの認識精度を高めるため、スキャン解像度を300DPI以上にした上でご利用ください。

スキャンPDFのテキスト認識はLazyPDFのOCRツールで。ブラウザだけで無料・登録不要で日本語OCRが実行できます。

無料で試す

トラブルシューティング