scrapy爬取去哪儿网，练习项目_系统开发案例-程序员客栈

爬取步骤：1、首先cmd启动scrapy，生成爬取去哪儿网的scrapy文件夹，包含spider、pipline、setting等文件，指定域名。2、编写主要爬虫文件spider，首先爬取主页上的字段信息以及详细页的网址，然后获取到详细页的网址后，通过回调函数进入到详细页爬取。主页爬取采用re。3、在进入到详细页之前，大部分详细页网站会被重定向到一个中间页面，中间页面里有详细页的网址，通过re获取到所要的详细页网址，继续通过回调函数进入详细页4、进入到详细页后，通过response返回的内容获取到要爬取的字段信息，接着发现部分信息需要更进一步到动态加载内容中获取，继续用回调函数进入到动态加载网页中5、进入到动态加载网页需要携带参数、携带参数进入后通过json转换获取到要爬取的评论数等信息6、在setting里设置请求头和代理ip池，并且到midware中间件设置爬取时更换ip7、设置item和pipline将数据保存到csv文件中去

scrapy爬取去哪儿网，练习项目

作品详情

重点城市程序员兼职推荐

重点岗位程序员兼职推荐