个人介绍
个人简历
姓名:徐兆彬
本人是哈尔滨工业大学(深圳)数据科学与大数据专业的大三学生,男,21岁
手机:*,邮箱:2692278357@qq.com
求职意向:自然语言处理、机器学习、大数据分析等相关领域实习岗位
自我评价:有团队合作精神,编程能力强,创新能力强,建模能力强。
获得奖项与项目经历:
1. 2021年国际大数据竞赛暨第七届百度&西安交大大数据竞赛
背景:本届大数据竞赛由联合国教科文组织国际工程科技知识中心(IKCEST)、中国工程科技知识中心(CKCEST)、百度及西安交通大学共同主办。本届赛题为自动驾驶中的目标检测和语义分割。本人所在队伍最终成绩为第八名。本场比赛本人任队长,负责所有算法设计工作。
方案:Cascade-RCNN + 类别加权交叉熵 + 联合目标检测与语义分割 + 基于Box-Cox变换的区域面积筛选法 + 概率阈值优化Macro-f1
2. Kaggle Feedback-Prize 竞赛
背景:Kaggle竞赛之一,要求识别6-12年级学生所写文章的结构,共有Lead, Position, Claim, Counterclaim, Rebuttal, Evidence, Concluding statement六种类别,是一个类似NER的比赛。最终成绩为银牌(54/2000),本场比赛本人虽然组队,但模型训练所有工作由本人独力完成。
方案:FGM + Multisample-Dropout + len threshold + proba threshold + 不连续解码 + 模型融合
3. 基于三轴加速度计的老人步态特征检测
背景:导师安排的智慧养老项目,测量71个老人佩戴的三轴加速度计在3天内的示数序列,基于这些序列预测他们每人是否在过去一年内跌倒超过两次。精度达到SOTA,AUC为0.83.本场比赛由本人独力完成。
方案:基于方差最小化切割运动片段 + 构造115种步态特征 + LightGBM分类
4. 基于技术指标的加密货币价格预测
背景:Kaggle竞赛之一,金牌(8/1946)。要求基于14种加密货币的分钟级历史数据预测其未来15分钟的收益率,评价指标为相关系数。最终成绩仍在评测中(评测周期三个月),但本人所创模型已在股票市场成功应用,效果不错。本人任队长,但由于错误组队,所有工作由本人独自完成。
方案:技术指标特征 + LightGBM + 近期数据重加权 + 隔期重新训练
5. 2020年中国大学生程序设计竞赛(CCPC)威海站银奖(本人为队长)
6. 2021年国际大学生程序设计竞赛(ICPC)亚洲区域济南站银奖(本人为队长)
工作经历
2022-09-01 -至今华为实习生
本人目前在华为共公开发部实习,负责一个自然语言转SQL系统。本人目前为止在华为已经做了一个家庭智能找物系统,使用yolov5模型。
教育经历
2019-09-01 - 哈尔滨工业大学(深圳)数据科学与大数据本科
本人参加了众多数据分析和程序设计竞赛,有扎实的编程、算法和数据分析功底。
技能
Kaggle是谷歌旗下的全球最大最权威的数据科学竞赛平台之一。本人目前在kaggle上取得2场比赛金和3场比赛银。本人参加的数据科学竞赛类型覆盖金融,自然语言处理和计算机视觉。
本人为大四学生,曾参加ACM-ICPC竞赛获得济南站银奖(队长)和CCPC竞赛获得威海站银奖(队长)。证明本人有足够的算法和编程功底,对于算法的时空复杂度优化有经验。
该项目完全由本人撰写,可以从https://www.cde.org.cn/hymlj/listpage/c723ac5960cee1811b7be33a2acf8224网页上爬取所有的药品说明书。难点在于该网页有infobox,是动态加载的,所以不能用requests库和正则表达式解析,只能用selenium模拟浏览器访问。同时动态加载的网页要等待加载完全,所以在模拟打开网页后需要一定的等待时间。此处用while循环实现了一个动态调整等待时间的方法,而非设定一个固定的等待时间(由于网速的不同,固定的等待时间有时会报错,或导致爬取速度过慢,因为数据太多,有数千条)。