工作经历
2018-07-05 -2022-07-07竹间智能科技(上海)有限公司技术研发工程师
自然语言处理算法: 1. 基于 HMM 与 CRF 的专有名词纠错系统:分别应用于音乐和保险行业,对 ASR 识别后的文字进行专有名词的纠错。 2. NLQ 自然语言查询算法:使用机器学习 + 工程方法开发复杂自然语言到 SQL 语言查询数据库的系统,已申请专利「一种语 义识别方法及其设备:CN*0.0,2020.12.04」。 3. Docparser 文档解析系统:使用可配置的文档解析流程,对 PDF、Doc、图片、PPT 等数十种文档进行解析,解析范围包括 页眉页脚,目录解析,复杂版面分析,文档结构树解析,表格解析等,生成供机器阅读分析的 json。已提交专利交底书「一 种可配置的多类型文档解析框架技术」。 4. Gemini Script 语言:基于正则语言二次开发的语言,从定义 BNF 开始,开发了编译器实现语法解析,兼容 python re 模 块,同时可以额外扩展***证号、地址、时间日期等自然语言处理函数,大大提升 re 抽取的能力。 项目经验: 1. 对话机器人 BotFactory 项目经验:负责实现客户定制需求。BotFactory
2015-08-01 -2017-12-31爱闪拍(上海)科技有限公司系统开发组组长
1. 人工辅助图像识别系统重构:负责后端开发,使用 Python Flask 框架重构原基于 PHP 搭建的系统后台。 ***后端开发:负责后端开发,实现包括客户管理,拍照识别,Bingo 抽奖等功能。客户有全家、宁波印象城、西安 印象城、联通小沃等。 3. 央视 OCR 项目:负责实现购物小票识别算法服务。工作包括图片预处理:二值化、去印章、降噪、偏斜校正、文字切割、 PCA 特征提取、分类、以及基于 tesseract-ocr 的文字识别。 4. 视频分析系统 VCMS :负责视频分析算法及内部人工辅助系统架构实现。该系统可以在人工标注视频中物品后,逐帧跟踪 该物品,返回每一时刻该物品的坐标,投产应用与傲播公司合作项目。主要涉及算法技术:ffmpeg :视频转码,音频提取, 元信息提取,关键帧图片提取。OpenCV:SIFT + FLANN 的物件匹配,SIFT + Kmeans 搜索,Template Matching,Camshift + Kalman 过滤器,光场跟踪。 5. 广告打点系统 AdSaaS :参与架构设计及系统实现。该系统可以自动分析视频文字音轨、画面
2012-02-01 -2015-06-30威斯康辛大学麦迪逊分校生物信息访问学者
1. 序列组装:基于 De Bruijn graph 的组装算法:Velvet(Pair-End 序列),Allpath-LG(Mate-Pair 序列) 2. 序列比对:BWA 快速短序列比对,LASTZ 基因组全局比对,Bowtie2 短序列-基因组快速匹配,MUSCLE 多序列比对 3. 基因注释:Saccharomyces eubayanus 基因组注释:在酵母基因组注释流(YGAP)基础上增加 ORF 确认和 Synteny 保 守限制,注释染色体易位与转置,注释内含子剪切位点 4. 种系发生树分析:MEGA 生成种系发生树,PAML dn/ds 参数估计,基因非同义突变率逻辑斯蒂回归分析。
教育经历
2008-09-01 - 2012-06-30华中科技大学生物信息技术本科
周艳红教授 实验室 研究助理,2009-03 至 2011-12 参与国家自然科学基金项目: 高免疫原性 T 细胞抗原表位预测方法及其应用研究。项目批准号:30971642。
技能
2014 年在威斯康辛大学麦迪逊分校做生物信息访问学者时完成的项目,一种快速的基因组测序组装算法。 基于 De Bruijn graph 的组装算法:Velvet(Pair-End 序列),Allpath-LG(Mate-Pair 序列),以及种系发生树分析:MEGA 生成种系发生树,PAML dn/ds 参数估计,基因非同义突变率逻辑斯蒂回归分析。 发表论文:Baker E, Wang B, et al. The GenomeSequence of Saccharomyces eubayanus and the Domestication of Lager-BrewingYeasts. Molecular Biology and Evolution. 2015;32(11):2818-2831.
Gemini 是一套端到端的文档分析解决方案:功能包括解析文档,提取文档信息,构建知识图谱,到后续的问答、审核 全流程应用,用户可以通过拖拽实现流程编辑。 负责范围:从头参与整体工程架构设计,负责文档解析服务开发,正则语言编译器重构开发,以及核心框架服务开发。 服务客户包括赛诺菲、中海油、银联云闪付、中银三星、复旦大学、三一重工、大疆、广州12345、云南能投等。 其中主要负责的 Docparser 文档解析流程已提交专利申请。