OCR识别

从扫描的PDF中提取文字

将文件拖放到此处或点击上传

从您的设备中选择PDF文件

使用方法

OCR将扫描页面转换为可选择、可搜索的文字。Tesseract.js完全在浏览器中运行，文档永远不会离开您的设备。

核心功能

多语言支持

支持数十种语言的识别，包括英语、法语、德语、西班牙语、中文、日语等。

基于浏览器的OCR

Tesseract.js在浏览器中本地运行，保护敏感内容。

复制和下载

将提取的文字复制到剪贴板或下载为文本文件。

逐页进度

查看每页处理的实时进度。

常见问题

OCR有多准确？

清晰的印刷文字扫描通常达到95-99%准确率。手写文字和低分辨率扫描准确率较低。选择正确语言可改善结果。

能识别手写文字吗？

Tesseract.js主要用于印刷文字。手写文字结果不可靠。

为什么处理需要时间？

OCR需要渲染每页为图像并分析字符，这是计算密集型操作。

OCR能使PDF可搜索吗？

此工具提取文字为纯文本，不创建可搜索的PDF叠加层。

Try more free PDF tools

No signup needed, no watermarks, free to use.