读光-文字检测-单词检测模型-英文-通用领域

我要开发同款
匿名用户2024年07月31日
79阅读
开发技术tensorflow
所属分类ai、文字检测、文字识别、Alibaba、OCR、F-score、cv
开源地址https://modelscope.cn/models/iic/cv_resnet18_ocr-detection-word-level_damo
授权协议Apache License 2.0

作品详情

读光文字检测

News

传送门

各场景文本检测模型:

各场景文本识别模型:

整图OCR能力:

轻量化模型DEMO:

欢迎使用!

模型描述

本模型是以自底向上的方式,先检测文本块和文字块之间的吸引排斥关系,然后对文本块聚类成行,最终输出单词的外接框的坐标值。ICGN模型介绍,详见:Seglink++: Detecting dense and arbitrary-shaped scene text by instance-aware component grouping

pipeline-icgn

期望模型使用方式以及适用范围

本模型主要用于给输入图片输出图中文字外接框坐标,具体地,模型输出的框的坐标为文字框四边形的四个角点的坐标,左上角为第一个点,按照顺时针的顺序依次输出各个点的坐标,分别为(x1,y1)(x2,y2)(x3,y3)(x4,y4)。用户可以自行尝试各种输入图片。具体调用方式请参考代码示例。

如何使用

在安装完成ModelScope之后即可使用ocr-detection的能力。

预处理和后处理

测试时的主要预处理和后处理如下:

  • Resize Pad(预处理): 输入图片长边resize到1024,短边等比例缩放,并且补pad到长短边相等
  • threshold grouping(后处理): node和link采用0.4和0.6的threshold,然后进行文字行grouping

环境准备

模型依赖tensorflow1.15.x运行,请使用镜像
registry.cn-hangzhou.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.3.0-py37-torch1.11.0-tf1.15.5-1.6.1
registry.cn-beijing.aliyuncs.com/modelscope-repo/modelscope:ubuntu20.04-cuda11.3.0-py37-torch1.11.0-tf1.15.5-1.6.1

代码范例

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
ocr_detection = pipeline(Tasks.ocr_detection, model='damo/cv_resnet18_ocr-detection-word-level_damo')
result = ocr_detection('http://duguang-labelling.oss-cn-shanghai.aliyuncs.com/maas/ocr_detection_eng.jpg')
print(result)

数据评估及结果

模型在MLT17验证集上测试,结果如下

Backbone Recall Precision F-score
ResNet18 74.8 85.3 79.7

以下为模型的一些可视化文字检测效果,检测框用绿色框表示。

det-result-visu

模型局限性以及可能的偏差

  • 模型是在特定英文数据集上训练的,在其他场景和语言的数据上有可能产生一定偏差,请用户自行评测后决定如何使用。
  • 当前版本在python3.7环境CPU和单GPU环境测试通过,其他环境下可用性待测试

训练数据介绍

本模型训练数据集是MLT17/MLT19/IC15/TextOCR/HierText,训练数据数量约48K。

模型训练流程

本模型利用imagenet预训练参数进行初始化,然后在训练数据集上进行训练,先利用512x512尺度训练100epoch,然后在768x768尺度下finetune训练50epoch。

相关论文以及引用信息

如果我们的模型对您有帮助,请您引用我们的文章: ```BibTex @article{tang2019seglink++, title={Seglink++: Detecting dense and arbitrary-shaped scene text by instance-aware component grouping}, author={Tang, Jun and Yang, Zhibo and Wang, Yongpan and Zheng, Qi and Xu, Yongchao and Bai, Xiang}, journal={Pattern recognition}, volume={96}, pages={106954}, year={2019}, publisher={Elsevier} }

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论