点击空白处退出提示
基于opencv+yolo+paddleocr+openvino对产品版本信息文字识别和logo 匹
我要开发同款作品详情
一、技术栈和项目流程:
1.取图,对图片进行分析总结。每张图片分为两个区域(文本区和LOGO区),并对LOGO进行取图保存;
2.用labelImg对图片标注为2类,用yolo模型进行分类定位(文本区:1类、LOGO区:2类);
3.对分类结果分别处理:
1).LOGO区用knnFlann算法进行模版匹配;
2).文本区用paddleocr进行文本识别。
4.由于现场硬件限制,使用 openvino对模型进行加速;
5.基于VS使用C++对算法进行编译,生成 DLL文件,供现场调用。
二、openvino的具体操作:
1.cmake、cuda、cudnn等 环境配置和安装;
2.安装openvino,配置环境变量;
3.在tools/export_onnx.py 将权重文件转成 onnx格式,然后再转成xml格式,供VS调用;
4.vs编译,生成dll文件,供客户端使用
三、项目的难点及解决方案:
1.logo匹配:由于现场相机打光不是很好,导致原图叫暗,不能准确匹配。解决方法:在图像处理中使用增加对比度(cv2.convertScaleAbs),将图片变亮;
2.文本识别中,错误率较高,如字母C识别成0,S识别成3/9等。通过数据增强、调整learning_rate、max_text_length、和适量增加样本集进行调整训练,准确率有所上升;
3.对模糊图片进行预处理,也可以提高准确率。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论