proginn718912
1月前来过
全职 · 1000/日  ·  21750/月
工作时间: 周末2:00-5:00工作地点: 远程
服务企业: 0家累计提交: 0工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

2、熟悉html、js、 ajax、firedebug
3、网页去重、找到网站特点
4、分布式
5、多线程
6、一种关系型数据库mysql/oraclelserver/mybatis
7、正则表达式、css selector、 xpath
8、DNS cache
9、TCP/IP/Http协议tp2.010、web登录协议

10、 SSO、OAuth原理

11、反爬策略
12、熟悉httpClient、okhttp3...
13、 熟悉一些提取工具、jsoup、selenim WebDriver...
14、搜索技术。熟悉Lucene/Nutch/Heritrix/solr/elastic-search/
15、熟悉XML、JSON、SOAP协议;
16、mongodb、 redis、 hbase、 hadoop
17、文本分析、机器学习、数据挖掘、自然语言处理[NLP]
18、完成网页、***、论坛等数据信息的精

工作经历

  • 2021-04-01 -2023-05-01東軟python 开发

    Ø 负责设计开发分布式网络爬虫,进行多平台信息抓取分析工作; Ø 根据业务需求,实现文本、图片数据抓取、清洗、存储工作; Ø 根据业务需求通过抓包技术Wireshark,包括代理、selenium、验证码处理等; Ø 根据业务需求获取各大平台cookies实现模拟登录和模拟请求接口获取数据。

教育经历

  • 2011-01-01 - 2014-01-01中山大学計算機本科

    本科毕业,读中山大学计算机糸, 熟练掌握Python、JavaScript、MySQL等编程语言。 精通Selenium等框架

技能

0
1
2
3
4
5
作品
黑貓投訴

1、使用Scrapy框架实现多线程的分布式爬虫,提高数据抓取速度。 2、处理网站反爬虫策略,使用代理和验证码识别技术。 3、利用数据清洗和处理技术,提取有用的信息并存储到数据库。

0
2023-10-30 19:52
百度

处理反爬虫策略,如限速、代理和验证码。 优化爬虫性能和稳定性,提高数据获取效率。 负责数据清洗和处理,保证数据质量和一致性

0
2023-10-30 19:50
数据挖掘

1、负责开发和维护多个爬虫项目,从各种网站和API获取数据。 2、设计和实现爬虫流程,包括数据请求、解析和存储。 3、处理反爬虫策略,如限速、代理和验证码。

0
2023-10-30 19:46
更新于: 2023-10-29 浏览: 157