点击空白处退出提示
作品详情
江苏各省的电力公司保存了大量非结构化信息,如项目报告、开竣工文件、预算书等,这些文件以Excel、PDF、图片等形式存储,未录入系统中,导致信息难以有效利用。该项目旨在建立一个系统,获取并分析这些文件并输出结构化数据。
技术实现:
该项目使用flask搭建,使用blueprints整合各个模块,我深度参与了多个模块的开发,其中Excel识别和图片识别两个模块较为重要:
Excel识别:
挑战:文档格式不统一,不同单位文件单独配置工作量巨大且缺乏拓展性。
解决方案:设置一套配置系统,通过位置和过滤条件动态获取所需单元格的数据。复杂条件通过配
置方法过滤,用户可自行配置应对不同样式的文档。此方法已识别出十万级别的文档并进行结构化
存储,使用Openpyxl和Pandas处理文档。
图片识别:
使用PIL进行图片降噪、切割、旋转等处理,使用PaddleOCR进行文字识别,并通过类似Excel识
别配置的方法获取关键字,得到所需数值。识别开竣工文件日期成功率超过80%。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论