项目描述:此项目是对安居客房价数据进行提取并提供给数据部门
关键词:scrapy, XPath,re, redis, MangoDB, User-Agent, IP, request
技术简介:
1、使用Python的爬虫框架scrapy框架
2、使用request进行代理ip信息采集
3、使用XPath(lxml),正则(re)进行页面分析并提取数据
4、使用redis和MangoDB进行信息存储
职责描述:
负责该项目的各省市房价指数信息提取
※项目名称:京东商品信息提取
项目描述:此项目是对客户提出的外包需求进行信息抓取
关键词:selenium, PhantomJS, request, XPath, json, csv, ajax
技术简介:
1、使用selenium模拟浏览器进行登录操作
2、使用pyautogui模拟鼠标对验证码进行滑动,解决验证码反扒
3、使用PhantomJS获取动态页面并触发click事件,获取下一页信息
4、使用request进行ajax请求
5、使用XPath(lxml),正则(re)进行页面分析并提取数据
6、使用csv和json进行信息存储