点击空白处退出提示
作品详情
- 对电子票据的图像进行OCR识别,在OCR识别基础之上,提取结构化信息。针对票据图像的关键信息抽取任务,作为OCR的下游任务,存在非常多的实际应用场景,如表单识别、车票信息抽取、身份证信息抽取等
算法实现:
- 文本检测 + 文本识别 + 语义实体识别(SER) + 关系抽取(RE)
- 文本检测:使用PP-OCRv3_det模型,训练针对票据的文本检测算法模型,只检测关键信息文本
- 文本识别:使用PP-OCRv3_rec模型,训练针对票据关键信息的文本识别算法模型
- 语义实体识别(SER):SER阶段主要用于识别出票据图像中的所有key与value,举例说明:“出院诊断”、“就诊医院”为key,“贵阳市妇幼保健院”、“泌尿道感染”为value,这里训练模型,检测出所有关键信息的key与value
- 关系抽取(RE):在RE阶段,需要标注每个关键字段的key与value的对应关系,即标注键值对进行模型训练
我的工作内容:
- 算法设计
- 算法服务开发
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论