




工作经历
2022-11-01 -至今西南大学签约公司学生
主要负责数据爬取,对爬取的数据通过正则表达式,爬取文本内容中想要的数据,进行筛选,偶尔也可以写一点前端,写一些好看的页面
教育经历
2021-09-01 - 西南大学软件工程本科
技能

在数据进行爬取的时候遇到了很多问题,在使用scrapy框架时需要下载很多python的库,比如scrapy,然后还需要重新调制scarpy当中的参数,比如BOT_NAME = "boss" SPIDER_MODULES = ["boss.spiders"] NEWSPIDER_MODULE = "boss.spiders" # Crawl responsibly by identifying yourself (and your website) on the user-agent USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.76"在此框架下既可以使用selenium也可以使用requess也可以二者结合


这两个网站我用的request即可,因为在对页面进行分析的时候,发现很轻松的就找到了隐藏的js文件,阿贾克斯文件,获取url后,再去获取相关的data或者parms参数,两个网站都需要在登录的情况下进行数据的爬取,所以就需要保留当前页面的cookie,全部都加载头文件中,headers,这样即可访问隐藏的数据,再将数据存到mysql当Z中,实现永久存储
