个人介绍
通过CET-4,曾获全国⼤学⽣数学竞赛二等奖、“互联网+”大学生创新创业大赛第一名,连续两年获得国家励志奖学金。
能够使用Python、R、Lisp语言、SQL语言和Linux的基本操作命令;了解Spss、Tableau、Power BI等可视化分析软件;
能够开展web爬虫、特征工程、机器学习与深度学习模型的训练与预测等任务;
能够实现虚拟机搭建,大数据集群安装与配置;能够使用Hadoop、HDFS、HBase、Spark、Hive等的基本操作;
了解NLP相关算法,如词性标注、实体识别、TF-IDF、TextRank、LDA和情感分析;能在GPU和tensorflow上使用的CNN、GAN等;
工作经历
2022-04-11 -2022-07-01科威国际技术转移有限公司数据分析实习生
参与公司基于国家低碳课题的低碳项目数据库开发,负责非结构化数据相关算法研究和开发。 接口开发工作:由于数据库中的数据格式对人的观感并不友好,需要有一个txt和excel文件互换的功能来实现内嵌的文件转换,另外将excel上传到数据库时对数据有一个规范化检测(比如列名是否存在,个别必空字段、必填字段、字段长度限制,时间格式规范是否合法)并给出具体规范修改反馈,通过Tkinter实现了内库数据导入导出外接工具的开发; 语义推荐工作:数据库中低碳项目的展示需要有一个相似内容推荐,通过调研,选取了Bert和GPT以及text2vec三种模型去实现该功能。目前调用API及预训练模型效果并不满意,在尝试基于低碳领域的数据去训练Bert的预训练模型。
2020-07-15 -2021-04-30中国科学院自动化研究所 算法实习生
针对海上风电运维能力弱、成本高的问题,研究海上风电场运维资源配置与运维策略的优化方法,降低运维成本提升效益。 模型设计工作:基于多码头多风电场情况,在python环境下使用Gurobi框架复现论文的优化模型,针对子问题每一个可行路线规划出最优路径,解决主问题在每个时间步长为每只船选择一个可行路线,得到该计划时间周期内风机的维护时间安排表,其中还包含船和运维人员的时间调度安排,完善MILP和ILP结合的周运维模型; 模型调优工作:基于可靠性最高和费用最低的目标函数,在python环境下使用Gurobi和Scip框架建立的海上风电场PM调度问题的多目标规划模型,完成月运维非支配排序遗传算法模型的调优工作; 算法部署工作:将测试好的算法在linux 服务器部署成HTTP服务,完成海上风电大数据平台的维护与优化工作。 工作详情请见 https://github.com/LJL-6666/Operation-and-maintenance-scheduling-project---Offshore-Wind-Farm.git
教育经历
2018-09-01 - 2022-07-01西安欧亚学院数据科学与大数据技术本科
2015.09-2018.07 米脂中学读高中
技能
结构化和非结构化数据的爬取并分析。Python 爬虫技术的基本内容包括网页基础分析、requests 请求、XPath 和正则解析、Ajax 分析、Selenium 模拟浏览器爬取、Scrapy 等知识点,但技术不是一成不变的,随着近几年时代的发展,一些新兴爬虫技术如异步爬虫、JavaScript 逆向、AST 技术、安卓逆向、Hook、智能解析、WebAssembly、大规模分布式、Docker、Kubernetes 等技术不断涌现。
数据处理工作:模型数据输入为30首古筝名曲的midi音乐,选取了最主要用的音轨,然后将单音符的音调与和弦提取出来,转化为字符串,并返回用整数表示的每个音调的正常顺序。将字符串列表去重后,建立了Python字典,以此每段音乐都用字符串对应的数字表示;模型设计工作:从球形高斯分布中采样随机向量z,并通过一系列转置卷积操作,以向上采样并生成输出数据x=G(z),该数据被输入向下采样卷积(其网络结构和生成器对称)的鉴别器网络D,以评估真实分布和生成的分布之间的发散程度,在GPU上训练实现了一个生成式的模型G,为每个音符高效的生成音频旋律。模型输入为一段时间的音符,目标输出为下一个时间步的音符;模型训练工作:模型一共训练了100轮,为了使得网络产生的音乐能达到“以假乱真”的效果,在模型结构不变的情况下,分别取lr、momentu和alpha不同的值对模型进行训练,当训练轮次增加到500,批量增加到20时模型达到收敛的效果。
接口开发工作:由于数据库中的数据格式对人的观感并不友好,需要有一个txt和excel文件互换的功能来实现内嵌的文件转换,另外,将excel上传到数据库时对数据有一个规范化检测(比如列名是否存在,个别必空字段、必填字段、字段长度限制,时间格式规范是否合法)并给出具体规范修改反馈,通过Tkinter实现了内库数据导入导出外接工具的开发; 语义推荐工作:低碳技术数据库建设需要相似技术推荐,复现了两种方法实现下游相似度计算任务。第一种方法是基于spacy和word2vec,先提取文档中的动词、名词和形容词,并将词语变形归一作为文档的文本信息,再借助glove向量提取文本向量特征,最后计算文本相似度。另一种方法先做了数据预处理,通过KeyBERT提取数据摘要,喂入Bert模型中的malteos/scincl预训练模型实现相似度计算。两种方法的输出效果超过关键词检索,得到业务认可。