点击空白处退出提示
作品详情
CTPN:核心思想是将图片按宽度为16像素分成很多个小格,检测每一个小格中是否包含文本,同时预测文本的高度和宽度。最后将多个检测结果融合,形成最终的文本框。CTPN缺点:对于倾斜和弯曲的文本检测效果很差,这个是因为模型自身的原理决定,很难通过训练解决。
CRAFT:可以识别任意角度的文本,而且可以给出图片中每一个像素为文本的置信分。在深度学习的OCR文本检测中,有一个很大的痛点就是在图片里有比较大的文本和比较小的文本的时候,小文本容易被漏检,这是因为采用了类似region proposal原理的算法(比如CTPN),很难通过调参或者数据集解决。而Craft由于是像素级别的预测,在这方面有天然的优势,不会漏检图片中的小文本。
Seglink:在CTPN基础上进行改进,利用开源项目测试了一些比较模糊的图片,发现效果不是很好,暂时没有深入研究,从论文的结果来看,在复杂场景下的识别效果要好于CTPN。
EAST:在Seglink基础上的改进算法,在识别倾斜和弯曲文本的效果上比较好
文本识别:
CNN+RNN+CTC:其中CNN用于提取图像特征,RNN在CNN提取特征的基础上,通过双向LSTM提取相邻下像素之间的特征,最后CTC用于计算损失函数。
CNN+Seq2Seq+Attention:引入了attention机制,通过开源项目的测试,效果相当好
keras开源库:实现了文字检测和文字识别的整合,其中文字检测用的是CRAFT,文字识别用的是CRNN
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论