文字版PDF识别线上版

我要开发同款
PDF数据抽取2024年11月25日
264阅读

作品详情

采用面向对象的设计,以及策略类的设计模式,对货运公司的各种PDF模板抽取并清洗指定数据,,以JSON形式保存,最后生成比对的EXCEL文件
亮点:
1. 采用框取关键词的四周来确定需要文本的内容
2. 公司的配置信息通过数据库来维护
3. 因为提前将数据清洗好,后面比对的过程相对简单许多
4. 采用消息队列和OSS形式来管理对货运公司的发过来的文件,方面进行模板开发和保存识别结果
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论