个人介绍
在nlp领域,文本分类,命名实体识别、关系抽取模型、知识图谱等有丰富经验
在cv领域,人脸检测识别,姿态识别,属性抽取等有丰富经验。
熟悉tornado,flask等web框架
熟悉docker容器部署服务。
研发业界先进主流的cv或nlp模型
提供在亿级以上数据量的人脸或文本应用解决方案。
工作经历
2021-03-01 -至今智警有限公司算法工程师
负责cv和nlp方面的一些算法开发, 主要是人脸识别模型开发,搭建亿级数据量下人脸服务。 人脸imsi关联算法开发,多维度构建人物画像。 笔录提取结构化信息形成知识图谱。
2018-06-01 -2021-03-01数定科技有限公司算法工程师
从事nlp算法开发,python web服务搭建,docker容器部署。 研发了文本多标签分类,命名实体识别,关系抽取等多种先进算法模型,搭建基于neo4j的知识图谱。 智慧警务系统,对数据库中的笔录进行分类,实体提取,关系提取,形成知识图谱。将非结构化数据转换为结构化数据,便于查询碰撞。 智慧文书系统,对判决文书进行分类,实体进行提取,形成知识图谱,用于查询碰撞。
教育经历
2014-09-01 - 2018-06-01湖南工业大学软件工程本科
专业知识扎实丰富,对数据库,数据结构,计算机网络有过深入了解 。
技能
提供人脸比对功能,可用于人脸考勤,监控等场景。 主要负责人脸识别模型开发,优化提升。 遇到的难点一是实际数据光照,清晰模糊度,人脸角度,年龄分布都比较丰富,对数据的质量有比较高的要求。通过自研聚类算法对实际数据进行预标注清洗,再人为标注得到高质量数据,用于模型训练。多样丰富的数据要求高容量的模型结构,采用业界the state of the art模型结构,能快速拟合训练数据,达到不错的效果。 二是数据类别依然存在不平衡情况,采用数据增强和改模型网络结构的策略,进一步提升模型的性能。
对使用者来说实现了研判文书的检索,智能分析功能 主要负责nlp算法的开发, 对判决文书进行分类,打上多个tag,实体进行提取,形成知识图谱,构建文书画像,用于多角度查询相似案例。 难点在于文书类别数据不平衡导致部分类别精度上不去,通过数据增强、调节网络结构、损失函数等方法使得模型精度达到要求。 实体提取难度在于训练数据缺乏,结合项目实际背景通过自研聚类算法,大大减少标注难度,获得高质量训练数据。