个人介绍
我是程序员客栈的木子津九,一名数据分析师; 我毕业于东北财经大学,负责过微博语料情感分析,客户信息挖掘与流失预测,奥运会可视化分析的开发; 熟练使用python、tableau、sas、spss; 如果我能帮上您的忙,请点击“立即预约”或“发布需求”!
工作经历
2021-03-01 -至今东北财经大学项目组核心成员
参加了“弹幕文本细粒度情感分析”科研项目,该项目利用多种传统机器学习模型及bert分类预测模型,实现对弹幕文本情感的分类预测。在该项目中我负责弹幕数据爬取、处理、数据库录入查询、可视化展示以及分类预测模型的优化研究与改进工作。
教育经历
2019-09-01 - 2023-07-01东北财经大学大数据管理与应用本科
python程序设计(97)、商务分析与R语言应用(95)、大数据存储原理(96)、系统工程(97)、数据抓取与数据清洗(96)、文本挖掘(97)、社会网络分析(97)、SAS基础及应用(99)、机器学习(99)
技能
本项目对某公司客户信息数据进行信息挖掘。 首先进行数据预处理 ,处理空缺值、异常值与离群点,接着进行数据类型转换,将文本型数据转换为离散型数值分类变量 ,便于后续特征空间的构建。 然后为了避免高维灾难与 多重共线性的发生阻碍回归预测,本文进行特征的选择 。对所有特征做相关性分析,除去有较高相关性的冗余特征, 同时删除 与 “是否流失 相关性不大的特征 ,最终从原十九个特征中保留了十个特征 。接着按照十个特征, 构建不同的分类模型 选取常用的决策树、逻辑回归、朴素贝叶斯、随机森林、支持向量机、 KNN 分类模型,并 利用 十折交叉验证法评价 比较不同分类模型的准确率 ,对分类结果进行分析与可视化展示, 选择出最适合该公司客户数据的分类器模型,并且 为公司提供建议。
利用Tableau绘制树状图、气泡图、面积图、柱状图、帕累托图、凹凸图等可视化图表,完成对历届奥运会的可视化分析 通过绘制时间折线图,可以发现无论是夏奥会还是冬奥会,赛事规模(参与运动员数量、国家数量、比赛项目数量)整体上都逐年扩大 通过绘制树状图,可以发现热度最高的项目是田径、游泳、赛艇、足球等 绘制获得金牌数量top气泡图,可以看出美国游泳名将菲利普斯获得28枚金牌独占鳌头; 通过绘制奖牌年龄面积图可以发现,23岁是运动员的黄金年龄,取得奖牌的可能性最大 通过性别对比柱状图,可以看出女性运动员数量在逐年提高 项目间的平均身高与体重大致成线性关系 由于原始数据是以运动员为视角,因此通过Tableau的组合,交叉表功能衍生出来其他信息表 中国在近五届夏季奥运会奖牌数都位列前三,在2008年北京奥运会更是取得金牌榜第一名 美国和俄罗斯同样也是体育强国 通过帕累托图可以看出奥运会同样存在二八定律,甚至更为明显,20%的国家拿到了近90%的奖牌 有五个项目都存在超过85%的垄断性夺冠率,分别是 (1) 加拿大在冰球领域的夺金率达到87.5% (2) 美国在篮球领域夺冠率达到90% (3) 中国在乒乓球领域夺冠率达到95% (4) 俄罗斯在花样游泳和艺术体操上夺冠率更是达到了惊人的百分百 在奖牌分布中,不同的国家普遍都是金牌数量最多 对于中国来说,优势项目是跳水、体操、举重、乒乓球、射击等 对于美国来说,优势项目是田径、游泳等