OCR erkennt Text nicht oder falsch: Die häufigsten Ursachen und wie Sie sie beheben

Sie laden ein gescanntes Dokument in ein OCR-Tool, starten die Texterkennung — und das Ergebnis ist enttäuschend: Buchstaben werden falsch erkannt, ganze Textblöcke fehlen oder es erscheint nur unlesbares Zeichenwirrwarr. Dieses Problem kennen viele Nutzer, die mit gescannten Dokumenten arbeiten. Die gute Nachricht: In den meisten Fällen gibt es klare Ursachen und konkrete Lösungen. OCR (Optical Character Recognition) analysiert Bilder auf erkennbare Zeichen und wandelt sie in maschinenlesbaren Text um. Wenn dabei Fehler auftreten, liegt es meistens nicht am OCR-System selbst, sondern an der Qualität der Eingabedaten — also dem Scan. Dieser Leitfaden erklärt systematisch die häufigsten Ursachen für OCR-Versagen und zeigt, wie Sie mit einfachen Mitteln die Erkennungsqualität erheblich verbessern können.

Ursache 1: Zu niedrige Scan-Auflösung

Die häufigste Ursache für schlechte OCR-Ergebnisse ist eine zu niedrige Scan-Auflösung. OCR-Algorithmen analysieren Pixel-Muster, um Zeichen zu erkennen. Wenn zu wenige Pixel für einen Buchstaben vorhanden sind, ist eine korrekte Erkennung unmöglich. Als Mindestanforderung gilt: 200 DPI für Standard-Drucktexte in lesbarer Schriftgröße, 300 DPI für kleinere Schriften und normale Dokumente, und 400 DPI oder mehr für sehr kleinen Text, handschriftliche Dokumente oder Thermobons. Prüfen Sie, mit welcher Auflösung Ihr Scan erstellt wurde. In den meisten Betriebssystemen können Sie die Bilddateigröße und die Auflösung in den Dateieigenschaften prüfen. Eine A4-Seite bei 200 DPI hat eine Pixel-Dimension von ca. 1654 × 2339 Pixeln — wenn Ihr Bild deutlich kleiner ist, ist die Auflösung das Problem.

1Prüfen Sie die Auflösung Ihrer Scan-Datei (Rechtsklick → Eigenschaften → Details).
2Wenn die Auflösung unter 200 DPI liegt: Scannen Sie das Dokument erneut mit mindestens 300 DPI.
3Laden Sie den neuen Scan bei LazyPDF OCR hoch und starten Sie die Texterkennung erneut.
4Vergleichen Sie die Erkennungsqualität mit dem vorherigen Ergebnis.

Ursache 2: Falsche Sprache in den OCR-Einstellungen

OCR-Systeme arbeiten mit Sprachmodellen, die die Wahrscheinlichkeit von Buchstaben-Kombinationen berechnen. Wenn 'Englisch' als Sprache eingestellt ist, aber ein deutsches Dokument verarbeitet wird, entstehen Erkennungsfehler — besonders bei deutschen Umlauten (ä, ö, ü, ß), die im Englischen nicht vorkommen. Das Ergebnis: Umlaute werden als 'a', 'o', 'u' oder als Sonderzeichen erkannt. Die Lösung ist einfach: Wählen Sie bei LazyPDF OCR die korrekte Sprache für Ihr Dokument. Für deutsche Dokumente wählen Sie 'Deutsch' (de). Wenn Ihr Dokument mehrsprachig ist — etwa ein Bericht auf Deutsch mit englischen Fachbegriffen — wählen Sie die vorherrschende Sprache. Einige OCR-Systeme unterstützen auch mehrsprachige Erkennung, bei der mehrere Sprachen gleichzeitig verarbeitet werden.

1Prüfen Sie, welche Sprache in Ihren OCR-Einstellungen ausgewählt ist.
2Wählen Sie die Sprache des Dokuments — für deutsche Texte 'Deutsch' (de).
3Verarbeiten Sie das Dokument erneut und prüfen Sie die Erkennung von Umlauten und Sonderzeichen.
4Bei mehrsprachigen Dokumenten: Testen Sie verschiedene Sprachkombinationen.

Ursache 3: Schlechte Scanqualität — Kontrast und Ausrichtung

Neben der Auflösung ist die Scanqualität in Bezug auf Kontrast, Helligkeit und Ausrichtung entscheidend. Ein grauer Hintergrund, der in schlechten Scans oft entsteht, reduziert den Kontrast zwischen Text und Hintergrund. OCR-Algorithmen benötigen einen klaren Kontrast: dunkle Zeichen auf hellem Hintergrund (oder umgekehrt). Wenn der Unterschied gering ist, 'sieht' der Algorithmus die Buchstaben nicht klar. Ebenfalls kritisch: die Ausrichtung des Dokuments im Scan. Ein um 2–5 Grad geneigtes Dokument kann die Erkennungsqualität erheblich verschlechtern, weil Textzeilen nicht mehr horizontal verlaufen. Die meisten guten Scanner und Scan-Apps erkennen und korrigieren die Ausrichtung automatisch. Wenn nicht, können Sie das Bild vor dem OCR-Lauf in einem Bildbearbeitungsprogramm begradigen.

1Öffnen Sie das Scan-Bild und prüfen Sie, ob der Hintergrund gleichmäßig hell (fast weiß) ist.
2Erhöhen Sie bei Bedarf den Kontrast und die Helligkeit in einem Bildbearbeitungsprogramm.
3Prüfen Sie, ob das Dokument gerade ausgerichtet ist — Textzeilen sollten horizontal verlaufen.
4Begradigen Sie das Bild bei Bedarf und starten Sie dann die OCR erneut.

Ursache 4: Spezielle Schriftarten und Handschrift

Standard-OCR ist für gedruckten Text in gängigen Druckschriften optimiert. Bei ungewöhnlichen Schriftarten — Schreibschrift-Fonts, sehr dekorative Displayschriften, enge oder sehr breite Schriften — kann die Erkennungsqualität deutlich sinken. Dasselbe gilt für Handschrift, für die Standard-OCR kaum ausgelegt ist. Wenn Sie häufig mit speziellen Schriftarten oder handschriftlichen Dokumenten arbeiten, gibt es spezialisierte Tools, die für diese Anwendungsfälle trainiert sind. Für historische Dokumente in Kurrent-Schrift oder Sütterlin gibt es eigene OCR-Modelle, die von Forschungseinrichtungen bereitgestellt werden. LazyPDF mit Tesseract ist für gedruckten Text optimiert — für Handschrift empfiehlt sich eine manuelle Transkription oder ein spezialisiertes Handschrift-OCR-System.

Häufig gestellte Fragen

Wie messe ich die Qualität meiner OCR-Erkennung?

Prüfen Sie das OCR-Ergebnis stichprobenartig: Kopieren Sie Text aus dem erzeugten PDF und vergleichen Sie ihn mit dem Original-Scan. Achten Sie besonders auf Umlaute, Zahlen und seltene Zeichen. Ein Fehlerrate von unter 5% ist für die meisten Anwendungszwecke akzeptabel. Für kritische Anwendungen (juristische Dokumente, Finanzdaten) sollte die Fehlerrate unter 1% liegen — was oft manuelle Nachkorrektur erfordert.

Kann OCR Tabellen in Dokumenten korrekt erkennen?

Standard-OCR erkennt den Text innerhalb von Tabellen, aber nicht unbedingt die Tabellenstruktur (Zeilen und Spalten). Das Ergebnis ist oft eine Textwolke ohne klare Tabellengliederung. Für die korrekte Erkennung von Tabellen sind spezialisierte Tabellen-OCR-Tools notwendig, die die Struktur analysieren und in strukturierte Formate (Excel, CSV) ausgeben. Für einfache Datentabellen kann ein manuelles Nachbearbeiten des OCR-Ergebnisses effizienter sein.

Warum erkennt OCR manche Seiten gut und andere schlecht?

Unterschiedliche Erkennungsqualität auf verschiedenen Seiten deutet auf unterschiedliche Scanbedingungen hin — zum Beispiel wenn einige Seiten mit schlechterer Beleuchtung oder höherer Komprimierung gescannt wurden. Auch Seiten mit Fotos, Grafiken oder komplexen Layouts werden oft schlechter erkannt als reine Textseiten. Prüfen Sie die schwächer erkannten Seiten im Scan und bessern Sie die Scanqualität nach.

Hilft es, ein Dokument in Graustufen statt in Farbe zu scannen?

Für die meisten Texte ist Graustufen-Scanning für OCR ausreichend und erzeugt kleinere Dateien. Farb-Scanning ist vorteilhaft, wenn das Dokument farbige Elemente enthält, die für die Interpretation wichtig sind (z.B. rote Unterstreichungen oder farbige Tabellen). Für reinen Schwarzweiß-Text reicht ein Graustufen-Scan bei 300 DPI für sehr gute OCR-Ergebnisse.

Testen Sie die OCR-Texterkennung jetzt — klare Ergebnisse dank Tesseract direkt im Browser.

Kostenlos Testen