不能注册风
1月前来过
全职 · 1000/日  ·  21750/月
工作时间: 工作日19:00-22:00、周末9:00-17:00工作地点: 远程
服务企业: 5家累计提交: 2工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

我是北京大学计算机相关专业在读研究生。
我曾先后主导微博爬虫项目、股票基金历史数据爬虫、汽车之家爬虫项目、全国大数据创新行动大赛(包括豆瓣、天涯、微博、百度等社交媒体的数据获取)、航空 信息展示系统(包括flightradar中航班、轨迹信息的爬取)、课程信息展示系统、北京西客站大客流等等项目。
在专业技能上,我熟悉Python 等编程语言,pytorch等框架,熟悉requests、bs4、selenium等爬虫框架,有解决诸多爬虫项目的经验,解决相关问题的专业技能、实际能力强。
我做事认真、细心负责。希望能发挥我的特长。

工作经历

  • 2018-06-01 -2018-09-01零点数据分析岗位

    该岗位主要工作包括数据获取(爬虫等方式)、数据清洗、数据维护、数据分析等工作内容,我主要参与数据的数据获取与数据清清洗的部分

教育经历

  • 2018-09-01 - 北京大学数据科学硕士

    北京大学计算机相关专业硕士在读,编程功底扎实,做事认真

技能

0
1
2
3
4
5
作品
微博数据大规模爬取

该项目的特点是,爬取网站单一但数据量要求大,甲方要求我爬取一个主题下全部历史的微博评论数据,因此和多社交媒体标准数据量爬虫不同,这个项目的主要精力放在了高效率爬虫方面,主要解决的问题有: 控制访问频率, 使用ip代理池应对反爬虫措施 解决的难点问题包括: requests模拟登录 分布式爬虫提高效率

0
2021-06-14 10:07
社交媒体数据获取

该项目配合多重爬虫手段,爬取了微博、豆瓣、百度、天涯等主要社交媒体的数据,爬取的网站种类多,各个页面特征不一,主要解决的问题有: 分析各个平台的页面特征,制定针对化的爬虫策略 控制访问频率, 使用ip代理池 解决的难点问题包括: 模拟网站登录 分布式爬虫 模拟java script进行页面跳转

0
2021-06-14 09:47
全国大数据创新行动大赛

主办方给出全国数十个品牌、数百家门店的数十万条评论数据,要求参赛团队挖掘其中 的信息,该比赛系我一人独立参赛,比赛中我的工作包括: 个人职责包括: 爬虫:除主办方给出的数据外,自己爬虫餐饮店的评论数据,补充了数据来源 情感分析:使用snownlp库对每条评论数据进行情感分析,根据情感分析的评分讲评论 分为正面评论、负面评论,统计各个品牌以及不同门店的正面评论、负面评论的比例 可视化:将上述内容在地图中进行可视化,形成不同品牌、不同门店的推荐系统 链接系本人获奖的报道

0
2021-06-14 09:02
更新于: 2021-06-14 浏览: 243