工作经历
2017-06-20 -至今上海风声企业信用征信有限公司python开发工程师
参与公司爬虫项目的开发与维护,主要使用python语言。 主要工作有: 1、使用爬虫爬取公司所需要的海量数据,遇到难爬的网站自行研究,并破解相关反爬技术。 2、通过requests、scrapy等技术手段及Beautifulsoup、xpath等解析方法爬取目标站点数据 3、熟练掌握selenium自动化 4、对抓取的数据进行清洗、过滤、分表存储以供其他人员使用。 5、不断学习新技术以适应公司的更高要求的爬取需求。
教育经历
2014-09-02 - 2018-06-01铜陵学院机械制造及其自动化本科
获得院级奖学金
技能
全国公司工商信息,包含资产总额,从业人数,负债总额,总营收,净利润,利润总额,纳税信息,联系方式等。 全国公司工商信息,包含资产总额,从业人数,负债总额,总营收,净利润,利润总额,纳税信息,联系方式等。 全国公司工商信息,包含资产总额,从业人数,负债总额,总营收,净利润,利润总额,纳税信息,联系方式等。
包含全国各地企业信息 根据客户提供名称或信用代码查询所需要的信息 包括利润,收入,负债,纳税,总收入,从业人数等 信息总量大,可按需购买。也可批量更新,可根据需求定制
a.这个网站采用极验验证码滑动和点击两块,滑动验证码通过解密拿到三张图,分别是缺块的图和滑块的图以及完整的图。将三张图拼接得到滑动的具体位置,从而破解。 b.点击验证码有两版,一个是给出一个成语,通过顺序点击隐藏在图片中的字。另一个是给出一个词类,找出9张图中属于这个类的图。两种点击破解步骤类似,拿第二种具体来说。先下载一些样本数据,然后写一个简单的标注系统,对图片进行标注分类入库。拿到标注的样本数据,通过OpenCV模块分别分割出含有文字的图和有图片的图并进行预处理,通过CNN神经网络模型训练,识别出结果。但是由于图片燥化比较严重,识别成功率虽然还可以,但是最终的结果仍然不理想。于是通过加一层类别的判断,得出约90%左右的准确结果。