Pdfsandwich 将 PDF 文件转换成文本

我要开发同款
匿名用户2018年11月19日
119阅读
开发技术C/C++
所属分类PDF工具包、程序开发、OCR开发包
授权协议GPL

作品详情

Pdfsandwich是将文本添加到图像形式的文本PDF文件(如扫描书籍)的工具。它使用光学字符识别(OCR)创建一个额外的图层,包含了原始页面已识别的文本。这对于复制和处理文本很有用。

Pdfsandwich是一个命令行工具,与同类的软件相比,它在扫描图像时执行了预处理程序,如版面校正和去除黑边等。

运行效果

最终的识别结果

VisionariesII7andsilverligreeornaments;goldandsilverower-stands,etc.;elaboratecolouredpatternsofcarpetsinbrillianttintsarenotuncommon.Anotherpeculiarityresidesintheextremerestlessnessofmyvisualobjects.Itisoftenverydifficulttokeepthemstill,aswellasfromchangingincharacter.Theywillrapidlyoscil-lateorelserotatetoamostperplexingdegree,andwhenthecharacterschangeatthesametimeacriticalexaminationisalmostimpossible.Whentheprocessisinfullactivity,lfeelasifIwereamerespectatoratadioramaofaveryeccentrickind,andwasinnowayconcernedwiththegettingupoftheperformance.Whena.successionofimageshasbeenpassing,Isometimesalezermz'netointroduceanobject,sayawatch.Veryoftenitisnexttoimpossibletosucceed.Thereisanevidentstruggle.Thewatch,pureandsimple,willnotcome;butsomehybridstructureappearssomethinground,perhapsbutitlapsesintoawarming-panorotherunexpectedobject.Thispracticehasbroughttomymindveryclearlythedis-tinctionbetweenatleastoneformofautomatismofthebrainandvolition;butthestrengthoftheformerisenormous,forthevisualobjects,wheninfullcareerofthechange,areimpera-tiveintheirrefusaltobeinterferedwith.[...]

获取代码

SVNCheckout

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论