个人介绍
从事行业数据管理10年,具备丰富数据处置经验,善于综合运用各类工具高效解决各类数据问题。尤其擅长海量数据整合,数据清洗,文本数据挖掘,词频统计,PDF文件处置。
擅长工具包括:python数据处理模块,excel高级,VBA,powerbi,power query,SQL等。
工作经历
2013-07-01 -至今泛美天地能源咨询有限公司石油数据分析师
跨国石油咨询公司数据分析师,具备丰富海量数据处置经验,海外工作经历。善于处理各类数据抽提,清洗,整合问题。
教育经历
2006-09-01 - 2013-07-01西南石油大学石油工程硕士
石油背景
技能
内容包括: 1. 使用python模块emoji和re实现表情符号替换 2. 文本挖掘,处理excel文件,将含特定关键字的文本信息提出 3. 按需求清洗数据,并实现excel多表合并 4. 使用opencv库,实现PDF扫描书籍背景修改 5. 将word文件批量写入excel中
内容包括: 1. 对上市公司IPO审核问询回复函、招股说明书PDF格式原始文件(11000个)进行目标文件锁定。二进制去重,并基于目标公司名单,及关键字,筛选出目标文件2490。 2. 使用python模块plumber抽提PDF中的文本,表格和图片信息,进行数据清洗与结构化。 3. 读取文本目录,将文章分割为问题块及回答块,分别统计字符数,评估问询函有效性。 4. 采用自然语言处理框架中的Jieba分词技术对文本内容进行切割,基于HMM模型和 Viterbia算法进行预测分词,将分词结果与《灵格斯汉英会计词典会计术语词典》进行比对,统计会计词汇出现次数,计算会计术语密度。 5. 以(现代汉语篇章中的连接成分》逆接连接成分为基础构律词典,使用re模块将每个逆接词作为正则表达式的pattern去匹配全文内容,统计逆接词出现的总次数,计算逆连词密度。 6. 将PDF中提取的表格与图片信息,折算为行数,计算可视化信息占比。 7. 使用pandas综合多个指标,分箱评级,得出文章可读性分数。