闪电车情

我要开发同款
proginn14203754542023年08月29日
187阅读
所属分类 PC网站

作品详情

业务背景:针对目前汽车品牌众多,对于消费者在各汽车品牌选择的指标进行大数据分析,它由全新一代大数据生态技术+AI技术驱动,让海量数据聚合,产生价值裂变,让车企、媒体、研究院等用户可以实时从多渠道、海量信息中清晰了解消费者心声
工作职责:面向全网进行汽车数据抓取,其中主要针对汽车之家、今日头条、微信公众号、懂车帝等媒体进行数据抓取;通过调研网站结构及其反爬机制,对指定网站进行爬虫脚本开发,并针对反爬机制进行破解,如:js加密,signature参数加密,特定编码文件,IP访问限制等。针对不同情况使用不同破解方法。
遇到问题及解决方案:
汽车之家:针对该类网站,反爬机制主要有ip限制、请求头验证及字体编码,针对以上几种反爬机制,采取的解决方案为代理ip池,构建协议请求头池,根据该网站特定编码文件进行字体解码;
抖音:通过调研,在该类数据中反爬主要为请求协议中增加了加密验证参数,针对这一情况解决方案为通过fiddler抓包使用中间人攻击方式,获取接口中参数的生成方式,通过逆向编译app源文件进行加密方法提取,并通过python实现加密过程;
技术栈:selenium,scrapy,js,Linux, ES,mysql,redis
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论