文本检测:
CTPN:核心思想是将图片按宽度为16像素分成很多个小格,检测每一个小格中是否包含文本,同时预测文本的高度和宽度。最后将多个检测结果融合,形成最终的文本框。CTPN缺点:对于倾斜和弯曲的文本检测效果很差,这个是因为模型自身的原理决定,很难通过训练解决。
CRAFT:可以识别任意角度的文本,而且可以给出图片中每一个像素为文本的置信分。在深度学习的OCR文本检测中,有一个很大的痛点就是在图片里有比较大的文本和比较小的文本的时候,小文本容易被漏检,这是因为采用了类似region proposal原理的算法(比如CTPN),很难通过调参或者数据集解决。而Craft由于是像素级别的预测,在这方面有天然的优势,不会漏检图片中的小文本。
Seglink:在CTPN基础上进行改进,利用开源项目测试了一些比较模糊的图片,发现效果不是很好,暂时没有深入研究,从论文的结果来看,在复杂场景下的识别效果要好于CTPN。
EAST:在Seglink基础上的改进算法,在识别倾斜和弯曲文本的效果上比较好
文本识别:
CNN+RNN+CTC:其中CNN用于提取图像特征