Texterkennung
Text aus gescannter PDF extrahieren
Dateien hier ablegen oder klicken zum Hochladen
PDF-Dateien von Ihrem Gerät auswählen
Gescannte Dokumente sind in der deutschen Verwaltungs- und Unternehmenspraxis allgegenwärtig: eingescannte Verträge, behördliche Bescheide, historische Unterlagen oder per Fax empfangene Dokumente. Diese Dateien enthalten Text nur als Bild — er ist nicht markierbar, nicht durchsuchbar und nicht kopierbar. OCR (Optische Zeichenerkennung) wandelt diese Bilddaten in echten, editierbaren Text um. LazyPDF verwendet Tesseract.js, eine im Browser laufende OCR-Engine, die mehr als 100 Sprachen unterstützt — darunter natürlich Deutsch, aber auch Englisch, Französisch, Spanisch, Arabisch, Chinesisch und viele weitere. Die gesamte Verarbeitung findet lokal auf Ihrem Gerät statt; keine Seite Ihres Dokuments wird an externe Server übertragen. Besonders relevant ist das für sensible Dokumente: Steuerbescheide, Gehaltsabrechnungen, Patientenakten oder Anwaltskorrespondenz können bedenkenlos OCR-verarbeitet werden, ohne dass vertrauliche Inhalte Ihr Gerät verlassen. Die DSGVO-Konformität ist damit automatisch gegeben. Die Genauigkeit der Texterkennung hängt primär von der Qualität des Originalscans ab. Scharfe, gerade und gut beleuchtete Scans liefern in der Regel exzellente Ergebnisse. Nach der OCR-Verarbeitung kann der extrahierte Text direkt kopiert oder als .txt-Datei heruntergeladen werden — bereit für die Weiterverarbeitung in Word, Excel oder einem CRM-System.
So funktioniert es
OCR (Optische Zeichenerkennung) wandelt gescannte Seiten oder bildbasierte PDFs in Text um, den Sie markieren, kopieren und durchsuchen können. Das Werkzeug rendert jede Seite als Bild und verarbeitet sie mit Tesseract.js, einer Erkennungsengine, die vollständig in Ihrem Browser läuft. Über 100 Sprachen werden unterstützt, und Ihre Dateien verlassen niemals Ihr Gerät.
Hauptfunktionen
Über 100 Sprachen
Erkennt Text in mehr als hundert Sprachen, einschließlich lateinischer, kyrillischer, arabischer, chinesischer, japanischer und koreanischer Schriftzeichen.
Verarbeitung im Browser
Tesseract.js läuft lokal in Ihrem Browser. Keine Dateien werden auf einen Server hochgeladen.
Kopieren und herunterladen
Kopieren Sie den erkannten Text in die Zwischenablage oder laden Sie ihn als .txt-Datei mit einem Klick herunter.
Seitenweise Verarbeitung
Die Seiten werden nacheinander verarbeitet, mit einem Fortschrittsbalken, der Sie jederzeit auf dem Laufenden hält.
Häufig gestellte Fragen
Welche Art von PDF eignet sich für OCR?
OCR ist für gescannte oder bildbasierte PDFs gedacht, die keine auswählbare Textebene enthalten. Wenn Ihre PDF bereits nativen Text enthält, können Sie diesen direkt kopieren — ohne OCR.
Wie viele Sprachen werden unterstützt?
Tesseract.js unterstützt über 100 Sprachen. Wählen Sie die Dokumentsprache vor der Verarbeitung aus, um die besten Ergebnisse zu erzielen.
Ist die OCR-Erkennung perfekt?
Die Genauigkeit hängt von der Qualität des Originalscans ab. Scharfe, gut beleuchtete Dokumente liefern in der Regel hervorragende Ergebnisse. Unscharfe oder niedrig aufgelöste Scans können Fehler verursachen.
Werden meine Dateien auf einen Server hochgeladen?
Nein. Tesseract.js läuft vollständig in Ihrem Browser. Ihre Dateien bleiben während des gesamten Erkennungsprozesses auf Ihrem Gerät.
Eignet sich OCR für Dokumente mit deutschen Sonderzeichen (ä, ö, ü, ß)?
Ja. Bei ausgewählter Sprache «Deutsch» erkennt Tesseract.js deutsche Sonderzeichen zuverlässig. Wählen Sie immer die korrekte Dokumentsprache aus, um die besten Ergebnisse zu erzielen.
Kann OCR bei Faxkopien oder alten Dokumenten funktionieren?
Faxkopien und ältere Dokumente haben oft niedrigere Auflösungen oder Verzerrungen, die die Erkennungsgenauigkeit beeinträchtigen können. Bei sehr schlechter Qualität kann das Ergebnis unvollständig sein. Eine Vorverbesserung des Scans (Kontrast erhöhen, begradigen) verbessert die Erkennungsgenauigkeit deutlich.
Kann ich den extrahierten Text direkt in Word oder Excel verwenden?
Ja. Kopieren Sie den extrahierten Text in die Zwischenablage und fügen Sie ihn direkt in Word, Excel oder jede andere Anwendung ein. Alternativ laden Sie die .txt-Datei herunter und öffnen Sie sie in Ihrem Texteditor.
Funktioniert OCR auch bei mehrseitigen PDFs?
Ja. Das Werkzeug verarbeitet alle Seiten nacheinander und zeigt den Fortschritt mit einem Balken an. Der gesamte extrahierte Text aller Seiten wird am Ende zusammengeführt und steht zum Kopieren oder Herunterladen bereit.
Try more free PDF tools
No signup, no watermarks, 100% free.