工作经历
2023-01-05 -2024-01-17智联招聘数据分析师
主要负责将房源流量和价格进行可视化 熟悉常见的反爬封禁策略和规则并具备相关经验 熟悉主流爬取技术及爬虫框架工具
教育经历
2020-09-01 - 2024-01-17山东科技大学计算机科学与技术本科
技能
随着经济的发展,当今社会进入到了信息时代,对编程语言的要求越来越高,本文于黑马程序员社区论坛爬取数据,以Python为编程语言,使用Spark对数据进行分析,并对分析结果进行可视化。
爬取天气网站 获得2022年各个月份的数据并进行可视化 导入requests、lxml、pandas库;首先,导入 requests 模块,并调用函数 requests.get(),从天气的网站上面获取该函数所需要的各种参数,然后对里面的参数进行相应的赋值 其次,使用 pandas.concat().to_excel 函数。
爬取租房网站,获得相关信息 新冠疫情结束之后,我国经济迎来全面复苏,越来越多的年轻人选择到经济发展较好的城市寻找工作机会,其中不可避免的就是租房问题,基于此爬取贝壳二手房网站获得相关数据,主要包括房屋总价、单价、户型、类型、大小、小区名称、小区区域等 一、实验环境 pycharm 2023 社区版 二、实验步骤 前期准备 1.调用第三方库(包含requests、pyquery、time、pandas、os、random) 2.新建outdata.xlsx文件存放数据 3.新建文本文件page.txt(存放爬取的页码)、success.txt(存放每页的网址)、error.txt 4.设置请求头 主代码分析 1.提取url-list 2.解析url,获得所需要的数据 3.爬取网页每页的代码并存放到page.txt文件中 4.抓取每处房源的网址并存放到success.txt文件中 5.获取房源具体信息,存放到outdata.xlsx文件中 爬取过程 采用utf-8编码格式进行逐页爬取