deep_ocr是使得OCR比tesseract更好的中文识别、身份证识别等等。
估计很多开发员使用tesseract做中文识别,但是结果不是一般的差,譬如下面的图片
$ tesseract -l chi_sim test_data.png out_test_data看到恨多公司在招腭大改癫和机器字习胸人 v 我有3个建议 (T) 忧T ' 2个上t较靠遭胸人就譬了 v不是越多越好 (2) 这T '2个人要能给大蒙上踝'倩邂知L目 (3) 不要招不宣代四胸人:虹大改癫和机器字习胸v不裹目宣 (或者宣过) 大量代四v基本上就只会忽悠了其实现在做文字识别不是很难,特别基于深度学习,这里是这个项目的reco_chars.py脚本,基于caffe的识别效果,是不是好很多?而且代码比tesseract短很多。
$ python reco_chars.py看很多公苘在招聘天数据和机器学习人我有个建议找个较靠谱的人就够了不是越多越好这个人要给大家上课传递知识不要招不写代码的人做天数据机器学习的不亲写或者写过天且代码基本上就只会忽悠了大家可以基于caffe训练自己的字体,系统基于这个文章开发单个字的识别:
Deep Convolutional Network for Handwritten Chinese Character Recognitionhttps://cs231n.stanford.edu/reports/zyh_project.pdf
评论