スキャンPDFがOCR後に巨大化する原因と対処法
スキャンしたPDFにOCRをかけたら、元のファイルが数百KBだったのに数十MBになってしまった、という経験はありませんか。OCRはスキャン画像からテキストを抽出する便利な技術ですが、処理後のファイルサイズが大幅に増加することがよくあります。この問題はOCRの仕組みに起因しており、正しく理解して適切な設定を行えば、検索可能なテキスト付きPDFを保ちながらファイルサイズを抑えることができます。本記事では原因を詳しく解説し、実践的なサイズ削減の手順をご紹介します。
OCR後にPDFが大きくなる仕組み
OCR処理では、元のスキャン画像の上に「不可視テキストレイヤー」を重ねてPDFに埋め込みます。テキストレイヤー自体は軽量ですが、問題は画像の扱い方にあります。一部のOCRツールは処理過程でスキャン画像を非圧縮または高品質のまま再保存するため、元の圧縮JPGより大幅にサイズが増加します。また、OCRツールが内部でPDFを一度展開し、再構築するときに最適化されていない方法で保存すると、メタデータや冗長データも膨らみます。スキャンページが多い(50ページ以上など)PDFではこの影響が顕著になります。
- 1OCR前後のファイルサイズを比較し、増加率を確認する(2倍以上なら対処が必要)
- 2OCRツールの設定で「出力品質」や「画像圧縮」オプションを確認する
- 3可能であれば「画像をJPEG圧縮して埋め込む」設定を有効にする
- 4OCR後にLazyPDFの圧縮ツールでPDFを再圧縮してサイズを削減する
- 5圧縮後のファイルでテキスト検索・コピーが引き続き機能するか確認する
OCR前に画像を最適化するワークフロー
OCR後のサイズを小さく抑えるには、OCR前の画像品質を適切に管理することが重要です。スキャン解像度が必要以上に高い(600DPIなど)場合、OCR処理に時間がかかり、出力サイズも大きくなります。一般的なテキスト文書のOCRには200〜300DPIで十分です。スキャンした画像を300DPIのJPGとして保存してからOCRにかけるワークフローが、品質とサイズのバランスが最もよいです。また、スキャン時のカラー設定を「グレースケール」にすると、カラースキャンと比べてファイルサイズを大幅に削減できます。テキスト文書のOCRにはカラー情報は不要なので、積極的にグレースケールを活用しましょう。
OCR後のPDFをLazyPDFで圧縮する方法
OCRで検索可能にしたPDFのサイズが大きすぎる場合、LazyPDFの圧縮ツールを使って後から圧縮できます。Ghostscriptベースの圧縮により、埋め込み画像のクオリティを調整しながらサイズを削減します。圧縮後もテキストレイヤーは保持されるため、検索・コピー機能は維持されます。平均的なスキャンPDFでは、圧縮後に元サイズの30〜60%程度まで削減できることが多いです。
- 1LazyPDFの圧縮ツールにOCR後のPDFをアップロードする
- 2圧縮設定で「バランス(推奨)」または「高圧縮」を選択する
- 3ダウンロードされたPDFを開き、テキスト検索が機能するか確認する
- 4文字がぼやけすぎていないか視覚的にも確認し、問題なければ完成
メールや共有に適したOCR済みPDFの最適サイズ
メール添付には通常10MB以下が推奨されます(多くのメールサービスの上限が25MB)。社内共有システムやクラウドストレージにアップする場合は制限が緩いことが多いですが、ダウンロード速度を考えると20MB以下が実用的です。スキャン1ページあたりのサイズ目安は、300DPI・グレースケール・OCR済みで約150〜300KB、カラースキャンでは300〜600KBが適切な範囲です。これを超える場合は圧縮か、ページ分割で対応しましょう。スキャン文書が多くなるほど一括圧縮ワークフローの整備が業務効率化につながります。
よくある質問
OCR後のPDFを圧縮しても、テキスト検索機能は保たれますか?
はい、保たれます。画像圧縮はスキャン画像部分のみに作用し、テキストレイヤーは独立して保持されます。LazyPDFの圧縮ツールもテキストレイヤーを破壊しない設計になっています。
スキャンPDFのOCR前後でどのくらいサイズが変わりますか?
OCRツールによって異なりますが、2〜5倍に増加するケースが多いです。適切な圧縮設定や出力品質設定を使えば、増加幅を抑えたり、圧縮ツールで後から削減したりできます。
グレースケールでスキャンするとサイズはどのくらい小さくなりますか?
カラースキャンと比較して、グレースケールでは通常40〜60%のサイズ削減が見込めます。テキスト文書のOCRにはグレースケールで十分な品質が得られます。
OCRをかけると文字の見た目も変わりますか?
いいえ。OCRはスキャン画像の上に不可視のテキストレイヤーを追加するだけなので、見た目(スキャン画像)は変わりません。文字を選択・コピーできるようになるだけです。