1. 本方案面向谁,解决了什么问题:
- 本方案面向需要从中国高等教育学生信息网(chsi.com.cn)上爬取研究生招生信息的用户,特别是那些对特定专业(如计算机技术、大数据技术与工程、人工智能)感兴趣,希望获取相关招生单位、专业、研究方向等信息的用户。
- 解决的问题包括:
自动化获取大量网页数据,减少人工搜索和数据收集的时间和劳动强度。
提供结构化的数据输出,便于进一步的数据分析和处理。
2. 有什么特点:
- 自动化:程序能够自动发送请求,获取网页内容,并解析所需的数据。
- 可定制性:用户可以根据需要修改代码中的专业列表和查询参数,以适应不同的查询需求。
- 结构化输出:通过pandas库,将爬取的数据保存为Excel文件,便于用户进行进一步的数据分析和可视化。
- 错误处理:程序中包含了基本的错误处理逻辑,如检查响应状态码,确保请求成功。
- 增量更新:程序能够检查目标HTML文件是否存在,避免重复下载相同的数据。
3. 组成和技术选型:
- 组成:
请求发送模块:使用requests库来发送HTTP请求。
HTML解析模块:利用lxml库的etree解析HTML文档。
数