采集过的网站:
Bilibili, 百度百科, Boss 直聘, 豆瓣读书, 抖音, 京东, 京东商品+评论, 链家, 天猫, 淘宝, 知乎, Taptap等
技术介绍:
HTTPX等网络工具,非常快速,有效地获取数据。
模拟浏览器环境(如Selenium, Puppeteer, Headless Browsers等)来进行网页数据抓取的行为。
模拟用户真实浏览器行为:模拟人的动作,比如点击按钮、滚动页面、填写表格等。
处理动态网页:有些网站的内容不是一开始就全部显示出来的,而是你浏览的时候慢慢加载出来的。这些工具可以等待这些内容加载完,然后再收集信息。
处理JavaScript生成的页面:浏览器抓取工具可以执行JavaScript,然后把这些动态生成的内容也收集起来。
通过代理IP,解决IP访问限制,够模拟真实用户行为,绕过许多基于用户行为的反爬虫机制。