Compresser un PDF scanné : techniques pour réduire efficacement les scans lourds
Les PDF scannés sont particulièrement lourds car ils ne contiennent pas de texte vectoriel — chaque page est une image bitmap. Un document de 20 pages scanné à 300 DPI peut facilement peser 50 à 100 Mo, même si le contenu est essentiellement du texte noir sur fond blanc. Ce poids excessif crée des problèmes pratiques : impossible d'envoyer par email, lent à charger, difficile à stocker. La bonne nouvelle : les PDF scannés sont également parmi les plus faciles à compresser efficacement, précisément parce que les images qu'ils contiennent ont rarement besoin d'une résolution d'impression professionnelle. Dans ce guide spécialisé pour les PDF scannés, nous allons vous montrer comment comprendre pourquoi vos scans sont si lourds, quelle résolution choisir pour la compression, comment utiliser LazyPDF et Ghostscript pour obtenir les meilleurs résultats, et comment combiner OCR et compression pour obtenir un document léger, cherchable et de qualité.
Pourquoi les PDF scannés sont-ils si volumineux ?
Un PDF scanné est fondamentalement différent d'un PDF créé numériquement. Là où un PDF créé depuis Word ou LibreOffice stocke du texte vectoriel (très compact), un PDF scanné stocke une image de chaque page. Ces images bitmap sont volumineuses par nature : une page A4 scannée à 300 DPI crée une image de 2480 x 3508 pixels. En couleur 24 bits, cela représente environ 25 Mo de données brutes par page, même avant compression.
- 1Ouvrez LazyPDF et accédez à l'outil 'Compresser PDF'.
- 2Importez votre PDF scanné volumineux.
- 3Sélectionnez le niveau de compression maximal pour les documents scannés textuels.
- 4Si le document est en noir et blanc, assurez-vous que l'outil traite les images en niveaux de gris pour une compression optimale.
- 5Lancez la compression et attendez — les PDFs scannés prennent plus de temps que les PDFs natifs.
- 6Vérifiez la lisibilité du texte dans le résultat avant de télécharger.
Choisir la bonne résolution pour compresser un scan
La résolution de scan est le principal facteur déterminant la taille d'un PDF scanné. Voici un guide pratique pour choisir la résolution cible lors de la compression. Pour des documents textuels destinés uniquement à la lecture sur écran, 100-120 DPI est suffisant — le texte imprimé reste lisible même à cette résolution. Pour des documents textuels devant rester lisibles après une légère impression, 150-200 DPI est recommandé — c'est le standard pour les documents de bureau. Pour des documents avec des graphiques, des tableaux ou des détails fins (formules mathématiques, petites polices), 200-300 DPI est nécessaire pour préserver la lisibilité. Pour des documents d'archives légaux ou des originaux précieux, conservez 300 DPI minimum et ne compressez pas au-delà.
Ghostscript pour la compression optimale des PDF scannés
Ghostscript offre des paramètres spécifiques très efficaces pour les PDF scannés en noir et blanc ou en niveaux de gris. Pour un document scanné en noir et blanc (texte sur fond blanc), la compression JBIG2 ou CCITT Group 4 peut réduire la taille de 80 à 95 % sans perte de qualité perceptible. La commande Ghostscript optimisée pour les scans N/B est : `gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook -dNOPAUSE -dQUIET -dBATCH -sColorConversionStrategy=RGB -dMonoImageFilter=/CCITTFaxEncode -dGrayImageResolution=150 -sOutputFile=compresse.pdf source.pdf`. Pour les scans en couleur, le paramètre `ColorImageResolution=150` et `GrayImageResolution=150` donnent un excellent résultat tout en réduisant significativement la taille.
Combiner OCR et compression pour un PDF léger et cherchable
Une stratégie avancée consiste à appliquer l'OCR avant la compression. L'OCR (reconnaissance optique de caractères) convertit les images de texte en texte vectoriel intégré dans le PDF. Ce texte vectoriel est beaucoup plus compact que les images qui le représentaient. Après OCR, vous obtenez un PDF avec une couche de texte indexable par les moteurs de recherche et copiable, plus les images originales en arrière-plan. Puis, lors de la compression, vous pouvez réduire la résolution des images de fond car le texte est désormais vectoriel et parfaitement net quelle que soit la compression. Cette combinaison peut réduire la taille d'un PDF scanné de 80 à 95 % tout en améliorant simultanément son utilisabilité. LazyPDF propose les deux outils : OCR d'abord, compression ensuite.
Questions fréquentes
Pourquoi mon PDF scanné pèse-t-il 50 Mo pour seulement 10 pages ?
Chaque page d'un PDF scanné est une image bitmap. À 300 DPI en couleur, une page A4 représente environ 5-10 Mo de données d'image compressées en JPG modéré. Pour 10 pages, cela fait 50-100 Mo. La solution est de compresser les images à une résolution inférieure (150 DPI pour la lecture écran) et d'appliquer une compression JPG plus agressive, ce que Ghostscript ou LazyPDF font automatiquement.
La compression d'un PDF scanné peut-elle rendre le texte illisible ?
Si la compression est trop agressive (moins de 100 DPI), le texte peut devenir difficile à lire, surtout pour les petites polices ou les textes fins. Pour les documents textuels, 150 DPI est généralement le minimum acceptable. Testez toujours la compression sur un fichier représentatif et vérifiez la lisibilité avant de traiter un lot entier.
Faut-il compresser ou appliquer l'OCR en premier sur un PDF scanné ?
Il est recommandé d'appliquer l'OCR en premier, puis de compresser. L'OCR sur un document haute résolution donne de meilleurs résultats. Après l'OCR, le texte est vectoriel et vous pouvez compresser les images de fond plus agressivement sans affecter la qualité du texte reconnu. Si vous compressez d'abord, la qualité réduite des images peut diminuer la précision de l'OCR.
Est-il possible de compresser un PDF scanné en couleur en noir et blanc pour réduire davantage ?
Oui, convertir les pages en niveaux de gris ou en noir et blanc lors de la compression peut réduire significativement la taille. Avec Ghostscript, le paramètre `-dColorConversionStrategy=Gray` convertit toutes les images couleur en niveaux de gris. Pour les documents textuels où la couleur n'est pas importante, cette conversion peut diviser la taille par 3 ou plus.