トラブルシューティング2026年3月17日
Meidy Baffou·LazyPDF

スキャンPDFが検索できない?OCRで解決する方法

スキャンしたPDFでCtrl+Fを押してページに明らかに見えている単語を入力します。何も見つかりません。テキストを選択してコピーしようとしても、カーソルがテキスト選択ではなく領域選択の十字に変わります。文書のすべてのページにテキストがあるのに、コンピューターは画像の集まりとして扱っています。 これはスキャンPDFがデジタル作成されたPDFとは根本的に異なるために起こります。紙の文書をスキャンすると、スキャナーは各ページの写真を撮影します。コンピューターにとって、各ページは風景写真と変わらない画像です。見えている文字は、ソフトウェアが読み取れる実際のテキスト文字ではなく、単なるピクセルのパターンに過ぎません。

問題を理解する

デジタル作成されたPDF(例えばWordからエクスポートされたもの)には、フォント情報、文字コード、配置情報を持つ実際のテキストデータが含まれています。ソフトウェアはこのテキストを即座に検索、選択、コピーできます。スキャンPDFには画像しか含まれていません。各ページはPDF構造に埋め込まれたビットマップ(通常TIFFまたはJPEG圧縮)です。検索しようとしても、検索するテキストデータがありません。この違いが重要なのは、解決策がPDFを修正することではなく、テキストレイヤーを追加することだからです。ページ画像はそのままですが、OCR技術が可視テキストを読み取り、各ページ画像の背後に不可視の検索可能なテキストレイヤーとして保存します。

  1. 1ソフトウェアはこのテキストを即座に検索、選択、コピーできます。
  2. 2この違いが重要なのは、解決策がPDFを修正することではなく、テキストレイヤーを追加することだからです。
  3. 3ページ画像はそのままですが、OCR技術が可視テキストを読み取り、各ページ画像の背後に不可視の検索可能なテキストレイヤーとして保存します。

OCRがスキャンPDFを検索可能にする仕組み

OCR(光学文字認識)は各ページ画像をピクセルごとに分析します。テキスト領域を識別し、個々の文字をセグメント化し、既知の文字パターンとマッチングします。認識されたテキストは、対応する画像テキストの上に正確に配置された不可視レイヤーに配置されます。結果として、元のスキャンと見た目が同じでありながら、すべての単語が検索・選択可能な隠しテキストレイヤーを持つPDFが得られます。最新のOCRエンジンはクリーンなスキャンと標準フォントで95〜99%の精度を達成します。スキャンの品質がOCR精度に直接影響します。高い解像度、良好なコントラスト、まっすぐなページ配置がすべて良い結果に貢献します。

LazyPDFでスキャンを検索可能にする

LazyPDFのOCRツールは、強力なオープンソースOCRエンジンであるTesseract.jsを使用してスキャンPDFをブラウザ内で直接処理します。スキャンPDFをアップロードし、最適な精度のために文書の言語を選択すると、各ページを処理して検索可能なテキストレイヤーを作成します。処理は完全にブラウザ内で実行されるため、機密のスキャン文書がデバイスから離れることはありません。OCR処理後、Ctrl+Fで文書内の任意の単語を検索し、テキスト段落を選択してコピーし、テキストアクセスが必要なワークフローでPDFを使用できます。複数ページのスキャン文書に対応し、100以上の言語をサポートしています。

よくある質問

OCR処理にはどのくらい時間がかかりますか?

処理時間はページ数、スキャン解像度、デバイスの処理能力によります。10ページの文書は通常1〜3分で処理されます。各ページが個別に処理されるため、大きな文書はそれに応じて長くなります。

低品質のスキャンでもOCRは機能しますか?

OCRはクリーンで高解像度のスキャン(300DPI以上)で最も効果的です。かすれたテキスト、ゆがんだページ、大きなノイズのある低品質スキャンでは精度が低下します。可能であれば、より高い品質で再スキャンしてOCR精度を向上させてください。

OCRでPDFファイルサイズは大きくなりますか?

OCRで追加されるテキストレイヤーはページ画像に比べて非常に小さいです。ファイルサイズの増加は通常最小限で、元のファイルサイズの5%未満です。場合によっては、プロセスによりわずかにサイズが縮小されることもあります。

無料のOCRでスキャン文書を数分で検索可能に。

PDFをOCR処理

関連記事