proginn2105068348
全职 · 300/日  ·  6525/月
工作时间: 工作日09:30-19:00、周末08:00-22:00工作地点: 远程
服务企业: 0家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

我现在是在校大学生,平常希望以工助学,通过接项目的过程,写的过程,获取进步

工作经历

  • 2022-11-01 -至今西南大学签约公司学生

    主要负责数据爬取,对爬取的数据通过正则表达式,爬取文本内容中想要的数据,进行筛选,偶尔也可以写一点前端,写一些好看的页面

教育经历

  • 2021-09-01 - 西南大学软件工程本科

技能

0
1
2
3
4
5
0
1
2
3
4
5
作品
使用python scrapy框架对boss直聘进行数据的爬取

在数据进行爬取的时候遇到了很多问题,在使用scrapy框架时需要下载很多python的库,比如scrapy,然后还需要重新调制scarpy当中的参数,比如BOT_NAME = "boss" SPIDER_MODULES = ["boss.spiders"] NEWSPIDER_MODULE = "boss.spiders" # Crawl responsibly by identifying yourself (and your website) on the user-agent USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.76"在此框架下既可以使用selenium也可以使用requess也可以二者结合

0
2023-11-20 21:33
爬取大宗点评,携程上有关关键词的景区评论,点赞数量,热评

这两个网站我用的request即可,因为在对页面进行分析的时候,发现很轻松的就找到了隐藏的js文件,阿贾克斯文件,获取url后,再去获取相关的data或者parms参数,两个网站都需要在登录的情况下进行数据的爬取,所以就需要保留当前页面的cookie,全部都加载头文件中,headers,这样即可访问隐藏的数据,再将数据存到mysql当Z中,实现永久存储

0
2023-11-20 21:27
爬取小红书上你想要的 关键词搜所后的文本内容

使用了selenium,因为小红书的反爬机制很强,所以填了一个stain.js的文件避免被封掉ip 成功登录以后即可为心所欲,在页面爬取时,因为页面的数据是动态加载的,所以我们还需要一些js的操作,每隔5秒自动向下滑动滑轮一定距离,是的数据远远不断的刷新,判断当前页面是否到底,只需要判断当前页面的高度是否有改变,如果一直没变,则说明数据爬取完毕,任务结束

0
2023-11-20 21:23
更新于: 2023-11-20 浏览: 378