点击空白处退出提示
作品详情
工作职责:面向全网进行汽车数据抓取,其中主要针对汽车之家、今日头条、微信公众号、懂车帝等媒体进行数据抓取;通过调研网站结构及其反爬机制,对指定网站进行爬虫脚本开发,并针对反爬机制进行破解,如:js加密,signature参数加密,特定编码文件,IP访问限制等。针对不同情况使用不同破解方法。
遇到问题及解决方案:
汽车之家:针对该类网站,反爬机制主要有ip限制、请求头验证及字体编码,针对以上几种反爬机制,采取的解决方案为代理ip池,构建协议请求头池,根据该网站特定编码文件进行字体解码;
抖音:通过调研,在该类数据中反爬主要为请求协议中增加了加密验证参数,针对这一情况解决方案为通过fiddler抓包使用中间人攻击方式,获取接口中参数的生成方式,通过逆向编译app源文件进行加密方法提取,并通过python实现加密过程;
技术栈:selenium,scrapy,js,Linux, ES,mysql,redis
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论