OCR识别

从扫描的PDF中提取文字

使用方法

OCR将扫描页面转换为可选择、可搜索的文字。Tesseract.js完全在浏览器中运行,文档永远不会离开您的设备。

核心功能

多语言支持

支持数十种语言的识别,包括英语、法语、德语、西班牙语、中文、日语等。

基于浏览器的OCR

Tesseract.js在浏览器中本地运行,保护敏感内容。

复制和下载

将提取的文字复制到剪贴板或下载为文本文件。

逐页进度

查看每页处理的实时进度。

常见问题

OCR有多准确?

清晰的印刷文字扫描通常达到95-99%准确率。手写文字和低分辨率扫描准确率较低。选择正确语言可改善结果。

能识别手写文字吗?

Tesseract.js主要用于印刷文字。手写文字结果不可靠。

为什么处理需要时间?

OCR需要渲染每页为图像并分析字符,这是计算密集型操作。

OCR能使PDF可搜索吗?

此工具提取文字为纯文本,不创建可搜索的PDF叠加层。

Try more free PDF tools

No signup, no watermarks, 100% free.