Mon PDF scanné est beaucoup trop lourd après l'OCR : que faire ?
Vous avez appliqué l'OCR à votre PDF scanné pour le rendre cherchable et modifiable, mais le fichier final fait maintenant plusieurs fois la taille originale. Ce phénomène déroute de nombreux utilisateurs qui s'attendaient à l'inverse : ils pensaient qu'extraire le texte allait alléger le fichier. Or, l'OCR ajoute une couche de données invisible à l'image et peut, selon le traitement, faire exploser la taille du fichier. Comprendre pourquoi un PDF grossit après l'OCR est essentiel pour trouver la bonne stratégie de réduction. Il ne s'agit pas simplement de comprimer le fichier au hasard : une compression mal ciblée peut détruire le texte OCR ou rendre les images illisibles. Il faut agir sur les bons paramètres, dans le bon ordre. Cet article vous explique les mécanismes en jeu, identifie les causes principales du grossissement post-OCR, et vous donne des méthodes éprouvées pour réduire la taille du fichier sans compromettre ni la lisibilité visuelle ni la qualité du texte extrait. Que votre fichier soit un contrat d'une page ou un rapport de 500 pages, ces conseils s'appliquent.
Pourquoi l'OCR augmente-t-il la taille d'un PDF ?
L'OCR ne remplace pas les images du PDF par du texte : il ajoute une couche de texte invisible par-dessus les images originales. Cette couche, appelée 'texte invisible' ou 'hidden text layer', contient toutes les données textuelles extraites avec leur position exacte sur la page. Le fichier PDF contient donc désormais à la fois l'image de chaque page et la couche de texte correspondante. Cela explique pourquoi le fichier grossit : vous avez conservé toutes les images originales (parfois lourdes) et vous y avez ajouté des données supplémentaires. De plus, certains logiciels OCR re-encodent les images lors du traitement, parfois en choisissant un format moins compressé que l'original, ce qui aggrave encore le problème. Un autre facteur est la résolution des images dans le PDF. Si les images étaient compressées en JPEG à 150 DPI dans le PDF d'origine, et que l'outil OCR les a rasterisées à 300 DPI pour améliorer la reconnaissance, le fichier de sortie contiendra des images deux fois plus grandes. C'est un compromis qualité/poids que tous les outils OCR ne gèrent pas de façon optimale.
- 1Comparez la taille du PDF avant et après OCR pour évaluer l'augmentation.
- 2Ouvrez le PDF dans un lecteur et vérifiez si vous pouvez sélectionner du texte : si oui, l'OCR a bien fonctionné et la couche texte est présente.
- 3Identifiez si les images du PDF ont été modifiées ou simplement augmentées d'une couche texte.
Comprimer les images sans supprimer le texte OCR
La méthode la plus efficace pour réduire la taille d'un PDF scanné avec OCR est de comprimer les images tout en préservant la couche texte intacte. C'est techniquement possible mais demande un outil capable de distinguer les deux couches. Ghostscript est un outil puissant qui permet cette compression ciblée. En ajustant les paramètres de compression des images (résolution, taux de compression JPEG, conversion en niveaux de gris si applicable), on peut souvent réduire un PDF de 50 à 80% sans aucune perte de la couche OCR. La couche texte n'est pas touchée car elle n'est pas une image. La compression PDF de LazyPDF utilise précisément ce type de traitement : elle optimise les images intégrées sans toucher les données textuelles. C'est idéal pour les PDF scannés avec OCR. Le résultat est un fichier plus léger qui conserve toutes les capacités de recherche et de copie de texte. Une autre approche consiste à convertir les images en niveaux de gris si le document original était en noir et blanc. Un document texte en couleur prend environ 3 fois plus de place que le même document en niveaux de gris, sans aucun gain d'information utile pour la lisibilité.
- 1Utilisez LazyPDF Compress pour réduire la taille du PDF après OCR sans perdre le texte.
- 2Si le document est en noir et blanc, activez la conversion en niveaux de gris pour diviser la taille par 3.
- 3Testez que le texte reste sélectionnable et cherchable après compression.
Optimiser les réglages OCR pour limiter le grossissement
La meilleure façon de gérer le problème est de l'anticiper en configurant correctement l'OCR avant de lancer le traitement. Certains réglages permettent de limiter le grossissement dès le départ. Premièrement, choisissez la résolution d'analyse OCR adaptée à votre document. Si le document original est à 300 DPI, configurez l'OCR pour analyser à 300 DPI et pas plus. Analyser à 600 DPI un document qui ne le justifie pas double la taille des images intermédiaires. Deuxièmement, si votre outil le propose, activez la compression des images après OCR. Certains logiciels proposent une option 'compact PDF' ou 'optimize output' qui comprime automatiquement les images après la reconnaissance. Troisièmement, pour les documents de texte pur (sans photos ni illustrations importantes), vous pouvez envisager de convertir les images en bitmap noir et blanc (1 bit par pixel) après OCR. Cette conversion réduit drastiquement la taille tout en préservant la lisibilité du texte scanné. Enfin, si votre objectif est uniquement d'obtenir le texte (et non de conserver l'image du document), vous pouvez extraire le texte OCR dans un fichier texte ou Word, beaucoup plus léger que le PDF scanné.
Cas extrêmes : que faire avec un PDF de plusieurs centaines de mégaoctets ?
Quand un PDF scanné avec OCR dépasse 100 Mo ou 200 Mo, des mesures plus radicales s'imposent. Plusieurs stratégies complémentaires peuvent être combinées. La première est la compression multi-passes. Appliquez d'abord une compression modérée (qualité 80%), vérifiez le résultat, puis appliquez une seconde passe si nécessaire. Les compressions successives n'ont pas le même effet que comprimer directement à la valeur finale. La deuxième est la division du document. Un PDF de 200 pages peut être divisé en 4 PDF de 50 pages, plus faciles à gérer et à envoyer. LazyPDF propose un outil de division PDF à cet effet. La troisième est la suppression des pages inutiles. Si le PDF contient des pages blanches, des pages de couverture en haute résolution ou des pages qui ne nécessitent pas d'OCR, supprimez-les avant le traitement. Enfin, si le document doit être archivé à long terme, envisagez le format PDF/A, optimisé pour l'archivage, qui impose des contraintes de compression standardisées garantissant à la fois la taille et la lisibilité à long terme.
Questions fréquentes
Peut-on comprimer un PDF après OCR sans perdre le texte extrait ?
Oui, tout à fait. La compression des images dans un PDF n'affecte pas la couche de texte OCR, qui est stockée séparément dans la structure du fichier PDF. Un bon outil de compression comme LazyPDF comprimera les images tout en préservant intacte la capacité de chercher et de copier le texte reconnu par l'OCR.
Pourquoi mon PDF a-t-il grossi de 300% après l'OCR ?
Plusieurs raisons peuvent expliquer cette augmentation : l'outil OCR a ré-encodé les images à une résolution plus élevée, il a changé le format de compression des images (de JPEG compressé à non compressé par exemple), ou il a ajouté des données de métadonnées volumineuses. Dans tous les cas, une compression post-OCR ciblée sur les images permettra de récupérer une taille raisonnable.
Quelle est la taille normale d'un PDF scanné avec OCR ?
Un document texte d'une page scanné à 300 DPI en niveaux de gris avec OCR pèse typiquement entre 100 et 300 Ko en JPEG compressé. En couleur, comptez 2 à 3 fois plus. Un document de 100 pages devrait peser entre 10 et 30 Mo dans ces conditions. Si votre fichier est significativement plus lourd, c'est qu'il y a eu un problème de compression ou de résolution lors du traitement.
La compression après OCR peut-elle détruire la lisibilité du document ?
Une compression trop agressive peut rendre les images difficiles à lire, mais le texte OCR reste intact et cherchable. Si votre objectif principal est la recherche textuelle, vous pouvez comprimer fortement les images. Si le document doit aussi être lisible visuellement, gardez une qualité JPEG d'au moins 75-80%. Testez toujours le résultat avant de supprimer l'original.