OCRmyPDF 为 PDF 文档增加文本层开源项目

我要开发同款
匿名用户2017年03月11日
45阅读
开发技术Python
所属分类PDF工具包、程序开发
授权协议MPL

作品详情

OCRmyPDF为PDF文件增加了OCR文本层,使之可以被方便的检索。

使用方法:

ocrmypdf                      # it's a scriptable command line program   -l eng+fra                 # it supports multiple languages   --rotate-pages             # it can fix pages that are misrotated   --deskew                   # it can deskew crooked PDFs!   --title "My PDF"           # it can change output metadata   --jobs 4                   # it uses multiple cores by default   --output-type pdfa         # it produces PDF/A by default   input_scanned.pdf          # takes PDF input (or images)   output_searchable.pdf      # produces validated PDF output

主要特性:

从常规PDF生成可搜索的PDF/A文件将OCR文本准确地放置在图像下方,以方便复制/粘贴保持原始嵌入图像的精确分辨率尽可能将OCR信息作为“无损”操作插入,而不会破坏任何其他内容优化PDF图像,通常生成比输入文件小的文件如果需要,在执行OCR之前对图像进行歪斜校正和/或清洁验证输入和输出文件在所有可用的CPU内核上分配工作使用TesseractOCR引擎识别100多种语言正确缩放以处理具有数千个页面的文件经过数百万PDF的实战测试
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论