OCRmyPDF为PDF文件增加了OCR文本层,使之可以被方便的检索。
使用方法:
ocrmypdf # it's a scriptable command line program -l eng+fra # it supports multiple languages --rotate-pages # it can fix pages that are misrotated --deskew # it can deskew crooked PDFs! --title "My PDF" # it can change output metadata --jobs 4 # it uses multiple cores by default --output-type pdfa # it produces PDF/A by default input_scanned.pdf # takes PDF input (or images) output_searchable.pdf # produces validated PDF output主要特性:
从常规PDF生成可搜索的PDF/A文件将OCR文本准确地放置在图像下方,以方便复制/粘贴保持原始嵌入图像的精确分辨率尽可能将OCR信息作为“无损”操作插入,而不会破坏任何其他内容优化PDF图像,通常生成比输入文件小的文件如果需要,在执行OCR之前对图像进行歪斜校正和/或清洁验证输入和输出文件在所有可用的CPU内核上分配工作使用TesseractOCR引擎识别100多种语言正确缩放以处理具有数千个页面的文件经过数百万PDF的实战测试
评论