OCRmyPDF 为 PDF 文档增加文本层_开源项目-程序员客栈

开源地址
https://github.com/jbarlow83/OCRmyPDF授权协议
MPL

OCRmyPDF为PDF文件增加了OCR文本层，使之可以被方便的检索。

使用方法：

ocrmypdf # it's a scriptable commad lie program -l eg+fra # it supports multiple laguages --rotate-pages # it ca fix pages that are misrotated --deskew # it ca deskew crooked PDFs! --title "My PDF" # it ca chage output metadata --jobs 4 # it uses multiple cores by default --output-type pdfa # it produces PDF/A by default iput_scaed.pdf # takes PDF iput (or images) output_searchable.pdf # produces validated PDF output

主要特性：

从常规PDF生成可搜索的PDF/A文件将OCR文本准确地放置在图像下方，以方便复制/粘贴保持原始嵌入图像的精确分辨率尽可能将OCR信息作为“无损”操作插入，而不会破坏任何其他内容优化PDF图像，通常生成比输入文件小的文件如果需要，在执行OCR之前对图像进行歪斜校正和/或清洁验证输入和输出文件在所有可用的CPU内核上分配工作使用TesseractOCR引擎识别100多种语言正确缩放以处理具有数千个页面的文件经过数百万PDF的实战测试

OCRmyPDF 为 PDF 文件增加了 OCR 文本层，使之可以被方便的检索。使用方法：
ocrmypdf # it's a scriptabl...

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

OCRmyPDF 为 PDF 文档增加文本层开源项目

技术信息

作品详情

功能介绍

重点城市程序员兼职推荐

重点岗位程序员兼职推荐