Journaliste d'investigation : rendre consultables les documents officiels avec l'OCR
Le journalisme d'investigation repose sur l'analyse de documents officiels : rapports de la Cour des Comptes, procès-verbaux d'assemblées publiques, déclarations patrimoniales des élus publiées par la HATVP (Haute Autorité pour la Transparence de la Vie Publique), marchés publics au BOAMP (Bulletin Officiel des Annonces des Marchés Publics), permis de construire, documents judiciaires communiqués dans le cadre de l'accès aux archives. Ces documents sont souvent disponibles uniquement en version papier ou en PDF image (scan non consultable). Appliquer la reconnaissance optique de caractères (OCR) à ces documents est une étape fondamentale du flux de travail du journaliste moderne : elle transforme des centaines de pages de texte figé en données cherchables, copiables et analysables. Ce guide présente les méthodes et bonnes pratiques pour que les journalistes et leurs rédactions exploitent efficacement l'OCR dans leurs enquêtes.
Accéder aux documents publics et les préparer pour l'OCR
En France, l'accès aux documents administratifs est garanti par la loi du 17 juillet 1978 (codifiée dans le CRPA, Code des Relations entre le Public et l'Administration) et encadré par la CADA (Commission d'Accès aux Documents Administratifs). Les journalistes peuvent demander la communication de nombreux documents publics : rapports d'inspection, délibérations de conseil municipal, documents budgétaires, contrats de délégation de service public. Ces documents sont souvent remis en version papier ou en PDF scanné. La première étape est de numériser les documents papier à haute résolution (300 DPI minimum). Pour les PDF déjà reçus en version scannée, l'OCR peut être appliqué directement. La qualité du scan conditionne la précision de l'OCR : un scan net, sans ombres ni plis, donne un résultat fiable sur le texte typographié. Les documents manuscrits (notes de marge, signatures) sont moins bien reconnus mais les parties dactylographiées sont généralement traitées correctement.
- 1Identifiez les documents pertinents pour votre enquête et effectuez les demandes CADA si nécessaire.
- 2Numérisez les documents papier à 300 DPI en mode niveaux de gris pour minimiser le poids des fichiers.
- 3Pour les PDF scannés reçus par email ou téléchargés, vérifiez qu'ils sont bien des images (aucun texte sélectionnable).
- 4Ouvrez LazyPDF et appliquez l'OCR sur chaque PDF pour le rendre consultable.
- 5Vérifiez la qualité de la reconnaissance sur quelques passages clés en testant la recherche par mot-clé.
Analyser de grands volumes de documents avec l'OCR
Les grandes enquêtes journalistiques impliquent parfois des milliers de pages de documents. Les Panama Papers, les Football Leaks ou l'affaire McKinsey en France ont nécessité l'analyse de volumes documentaires considérables. À petite échelle, un journaliste local enquêtant sur la gestion d'une commune peut se retrouver face à plusieurs centaines de pages de délibérations, de comptes administratifs ou de contrats. L'OCR transforme ces documents en données cherchables, ce qui permet d'effectuer des recherches par mot-clé pour identifier les passages pertinents sans lire l'intégralité du document. Cette capacité de recherche est particulièrement précieuse pour repérer un nom, une somme d'argent, une date ou une référence contractuelle dans un volume important de pages. Les rédactions d'investigation utilisent souvent des outils comme OCRMYPDF, Tesseract ou des solutions cloud en complément d'outils comme LazyPDF pour des traitements en masse. Pour un usage individuel ou un volume modéré, LazyPDF offre une solution immédiate et accessible.
- 1Organisez vos documents par thème ou par source dans des dossiers dédiés.
- 2Appliquez l'OCR par lots sur chaque dossier de documents.
- 3Utilisez la fonction de recherche plein texte (Ctrl+F) de votre lecteur PDF pour identifier les passages clés.
- 4Copiez les extraits pertinents dans votre logiciel de prise de notes (Notion, Obsidian, OneNote) pour construire votre dossier.
Extraire et analyser des images de documents officiels
Certains documents officiels contiennent des tableaux, des graphiques, des schémas ou des photographies qui illustrent les informations textuelles. La conversion PDF vers JPG permet d'extraire ces éléments visuels pour les intégrer dans les articles, les infographies ou les bases de données de la rédaction. Les déclarations de patrimoine des élus publiées par la HATVP, par exemple, contiennent des tableaux de biens immobiliers et de comptes bancaires qui peuvent être extraits en image pour être annotés et intégrés dans un article en ligne. Les plans d'urbanisme, les cartes de zonage, les organigrammes d'entreprises publiés dans des rapports officiels sont également fréquemment extraits en JPG pour être publiés sur le web ou intégrés dans des applications de data journalism. Pour les journalistes de données (data journalists), l'extraction des tableaux en image est une étape préalable à leur retraitement par des outils comme Tabula, qui permet de convertir les tableaux PDF en données CSV analysables.
- 1Identifiez les pages du document officiel contenant les tableaux ou graphiques pertinents.
- 2Convertissez ces pages en JPG via LazyPDF pour les extraire en images exploitables.
- 3Intégrez les images dans votre article ou transmettez-les à votre département data pour retraitement.
- 4Pour les tableaux, essayez Tabula ou Camelot (Python) pour extraire les données sous forme CSV.
Conservation et traçabilité des documents sources dans l'enquête
La déontologie journalistique exige de conserver les documents sources de façon intègre et traçable. Les PDF OCRisés constituent les pièces maîtresses d'une enquête : ils doivent être conservés dans leur état original (non modifié) et dans leur version OCRisée (pour la consultation). Il est conseillé de conserver les deux versions dans des dossiers distincts. Pour les documents sensibles obtenus de sources confidentielles, l'ensemble du workflow documentaire doit être sécurisé : chiffrement des disques, accès restreint, échanges via Signal ou ProtonMail. La HADOPI et les services de renseignement intérieur (DGSI) peuvent sous certaines conditions chercher à identifier les sources d'un journaliste via les métadonnées numériques. Il est donc essentiel de supprimer les métadonnées des documents reçus de sources confidentielles avant de les partager avec d'autres personnes. LazyPDF n'ajoute pas de métadonnées d'identification à ses fichiers de sortie, ce qui est un avantage dans ce contexte.
Questions fréquentes
L'OCR reconnaît-il le texte dans les documents administratifs français (typographies officielles) ?
Oui, l'OCR de LazyPDF est optimisé pour le français et reconnaît correctement les typographies courantes des documents administratifs. Les documents de la République française (Journal Officiel, BOAMP, rapports de la Cour des Comptes) sont généralement bien reconnus car ils utilisent des typographies standards à contraste élevé. Les documents plus anciens (avant les années 1980) ou les documents dactylographiés anciens peuvent nécessiter une relecture manuelle.
Puis-je utiliser LazyPDF pour analyser les déclarations de patrimoine des élus sur le site HATVP ?
Les déclarations de patrimoine sur le site HATVP sont disponibles sous forme de PDF scannés. Vous pouvez les télécharger, appliquer l'OCR avec LazyPDF et effectuer des recherches dans le texte. Cela facilite considérablement l'analyse de ces documents souvent denses et peu structurés. Vérifiez toujours les chiffres reconnus par l'OCR contre le document visuel original pour garantir l'exactitude de vos informations.
La qualité de l'OCR est-elle suffisante pour citer des documents dans un article ?
L'OCR peut produire des erreurs, notamment sur les caractères accentués, les chiffres ou les mots rares. Pour toute citation dans un article, il est impératif de vérifier le texte reconnu par l'OCR contre le document visuel original. L'OCR facilite la recherche et la navigation mais ne remplace pas la relecture humaine pour les citations publiées.
Mes documents sources sont-ils sécurisés sur LazyPDF ?
Les outils côté client de LazyPDF (dont l'OCR via Tesseract.js) traitent les fichiers directement dans votre navigateur sans les envoyer à un serveur externe. Pour les outils serveur, les fichiers sont supprimés automatiquement après traitement. Pour les documents confidentiels obtenus de sources sensibles, l'utilisation d'un navigateur Tor ou d'une connexion VPN ajoute une couche de protection supplémentaire.