Any2Excel 基于 Python 的图像内表格数据提取工具开源项目

我要开发同款
匿名用户2021年01月25日
164阅读
开发技术Python
所属分类应用工具、文档/文本编辑
授权协议MIT

作品详情

Any2Excel是一款使用Python编写的图像内表格数据提取工具,可以高效识别PDF原件、扫描件、复印件、彩色(黑白)照片、截图内的数据表格,提取后转为Excel文件输出。

这是一款开源工具,我给它取名叫Any2Excel。顾名思义,往后的目标就是提取任意格式文件中的数据图表到可被结构化处理的Excel文件。

识别度高,操作简单,使用场景广泛。

支持手机拍照、扫描件、原件、复印件等等。

快速开始PythonPIP依赖pipinstall-r.\requirements.txt外部依赖poppler安装后将其bin路径加入系统变量中配置腾讯云

cpconfig+sample.ymlconfig.yml后补全config.yml中的配置信息。

工作原理

将PDF按每页转为JPG图像文件

暂时只取PDF第一页内容

提交OCR识别这个图像文件

将识别结果转为Excel导出

清除Excel文件的全部样式

命令行(CLI)PDF转ExcelcdPDF2Excelpython3pdf2excel.pytest.pdf图片转ExcelcdPDF2Excelpython3image2excel.pycapture.jpg可视化拖拽

将需要转换的PDF文件/图片文件,拖拽到程序上就会自动执行

输出文件

*.xlsx 包含了样式的Excel文件,可能会因为样式过多而文件过大。

*.xls 移除了样式的Excel文件,推荐。

配置

config.yml 内包含了腾讯云的相关鉴权信息

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论