deep_ocr 中文识别开源项目

我要开发同款
匿名用户2016年11月29日
33阅读
开发技术Python
所属分类程序开发、图形/图像处理
授权协议GPL

作品详情

deep_ocr是使得OCR比tesseract更好的中文识别、身份证识别等等。

估计很多开发员使用tesseract做中文识别,但是结果不是一般的差,譬如下面的图片

$ tesseract -l chi_sim test_data.png out_test_data看到恨多公司在招腭大改癫和机器字习胸人 v 我有3个建议 (T) 忧T ' 2个上t较靠遭胸人就譬了 v不是越多越好 (2) 这T '2个人要能给大蒙上踝'倩邂知L目 (3) 不要招不宣代四胸人:虹大改癫和机器字习胸v不裹目宣 (或者宣过) 大量代四v基本上就只会忽悠了

其实现在做文字识别不是很难,特别基于深度学习,这里是这个项目的reco_chars.py脚本,基于caffe的识别效果,是不是好很多?而且代码比tesseract短很多。

$ python reco_chars.py看很多公苘在招聘天数据和机器学习人我有个建议找个较靠谱的人就够了不是越多越好这个人要给大家上课传递知识不要招不写代码的人做天数据机器学习的不亲写或者写过天且代码基本上就只会忽悠了

大家可以基于caffe训练自己的字体,系统基于这个文章开发单个字的识别:

Deep Convolutional Network for Handwritten Chinese Character Recognitionhttps://cs231n.stanford.edu/reports/zyh_project.pdf
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论