PDFMiner Python PDF 解析器开源项目

我要开发同款
匿名用户2017年03月02日
49阅读
开发技术Python
所属分类PDF工具包、程序开发
授权协议MIT

作品详情

PDFMiner是一个Python的 PDF解析器,可以从PDF文档中提取信息。与其他PDF相关的工具不同,它侧重的是获取和分析文本数据。PDFMiner允许获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个PDF转换器,可以把PDF文件转换成HTML等格式。还有一个扩展的PDF解析器,可以用于除文本分析以外的其他用途。

特性

完全用Python编写

解析、分析和转换PDF文档

PDF-1.7规范支持

CJK语言和垂直书写脚本支持

支持各种字体类型(Type1、TrueType、Type3和CID)

基本加密(RC4)支持

大纲(TOC)提取

标记内容提取

自动布局分析

PDFMiner内置两个工具:pdf2txt.py和dumppdf.py:

pdf2txt.py从PDF文件中提取所有文本内容。但不能识别画成图片的文本,这需要特征识别。对于加密的PDF你需要提供一个密码才能解析,对于没有提取权限的PDF文档你得不到任何文本。

dumppdf.py把PDF文件内容变成pseudo-XML格式。这个程序主要用于debug,但是它也可能用于提取一些有意义的内容(比如图片)。

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论