工作经历
2020-07-08 -2022-06-09山东三木众合python 工程师
数据库处理,linux服务器相关,爬虫,数据分析,nlp自然语言分析。知识图谱构建。
教育经历
2016-09-01 - 2020-07-01山东科技大学电子信息工程本科
技能
新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目
新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目新人凑数的项目
1、python scrapy 爬取近百个网站信息,及部分*公众号百科等信息,包含文 字图片视频等,使用pandas处理数据格式并汇总到MySQL,minio数据库中。 2、数据挖掘,根据hanlp等分词方法获取新闻文本中的地理位置信息,根据特定 算法进行坐标比对,为前端地图可视化提供数据。 3、知识图谱构建。对文本信息进行词性标注,句式结构分析,摘要提取,抽取实 体关系的知识spo三元组,汇总导入neo4j数据库中。可通过该图谱查询多个实体 词之间的关系,构建关系树。 4、文本分类。根据人工标注的文本数据分类,在经过一系列数据预处理后,首先 排除不需要的新闻条目,再进行具体文本分类。使用fasttext方法以及pytorch技 术使用textcnn,lstm,注意力机制等模型进行模型训练,对文本进行分类。因文本 来源网站复杂,分类人工标注主观因素,个别分类数据量小等影响,在去除垃圾数 据时预测集F1值可达97%,但是文本具体分类时,分类效果仅到92%。 5、以上所有环境的部署及本地部署等,主要使用docker技术。