浏览整个网页的大致情况,发现房租并不是以真实数据呈现,而是以字体文件配合偏移值呈现出来,且不同页面的字体文件内容不同,此处使用第三方识别平台,识别出图片内容,然后解析出不同偏移值对应的具体数据,构造出映射字典进行替换,以完成字体加密的破解,之后使用多线程提升爬取速度,获得所有数据后用mongdb进行持久化存储,使用padnas对数据进行清洗并找出异常数据
评论