睇痞硫硭产品经理-程序员客栈

D级

无

武汉

全职 · 300/日 · 6525/月信用正常

工作时间: 工作日00:00-24:00、周末00:00-24:00工作地点: 远程

服务企业: 0家累计提交: 0工时

联系方式:

********

查看联系方式

聊一聊

使用APP扫码聊一聊

去下载APP

个人主页

我是程序员客栈的睇痞，一名在读爬虫工程师；我毕业于武汉职业技术学院如果我能帮上您的忙，请点击“立即预约”或“发布需求”！

2022-11-07 -至今无无
暂时没有工作经验只是参加了一些校级省级国家级竞赛，例如软件杯，信创大赛，服创杯，达梦杯等

2020-10-10 - 武汉职业技术学院大数据技术与应用专科

Python

MySQL

机器学习

作品

豆瓣电影爬取

在进行豆瓣电影爬取这个项目中采用了scrapy框架进行爬取，首先在start_requests内对url进行重写再yield Requsets在parse中通过xpath对返回的网页数据进行解析和数据选择，最后在pipelines中实现持久化存储。

2023-04-12 12:29

对腾讯招聘岗位数据进行爬取

使用scrapy进行爬取，在start_requests函数内对url进行设置，使得爬取的页数可调节，还可以传入工作的类型从而实现更大范围数据的爬取，使用json.loads方法将网页数据进行爬取并且进行部分操作。使用yield返回一个Resquest接收对象为parse，再在parse中对数据进行解析和存入指向items文件中的item文件的item的对应索引下最后在pipelines中将数据持久化存储到mysql数据库中。

2023-04-12 12:30

使用selenium和scrapy对携程网进行爬取并保存到数据库

项目分为url构建和middlewares的设定，spider的parse文件的编写，item文件的设置，pipelines文件写入，setting文件的设置，实现了对携程网站这类动态加载网页的全页面爬取，可以在设置了爬取页数的前提下进行自动化爬取。实现了自动翻页点击，页面保存等自动化功能。使用re.findall方法对网页数据进行解析得到对应的目标数据，使用item接收对应数据到item中的对应的索引下，以键值对的形式存放在item这个字典中。本程序全部由我个人完成，使用了selenium和scrapy配合使用达到爬取到携程网全数据的目的。其中在对selenium介入scrapy的时候需要去拦截request发起的请求，需要在middlewares中对process_request方法进行重写，其中需要将selenium的方法全部写入，再导入HtmlResponse做返回值，将page_source填入到body参数，作为返回值去返回给parse中做response进行后续操作。

2023-04-12 12:31

更新于: 2022-11-07 浏览: 176

个人介绍

工作经历

教育经历

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐