全部动态开源项目源文件源码产品系统 Java Python C/C++PHP C#TypeScript Go Swift 更多

网络爬虫

GNE-JS 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。在论文中描述的正文提取基础上，还增加了标题、发布时间和文章作者的自动化探测与提取功能。该项目启发...

950TypeScript网络爬虫

1.参与总体数据仓库设计。 2.使用Python/自研调度工具将最底层不同系统不同类型的数据源(接口，Excel，Json，Mysql，Oracle)统一抽取到操作数据存储层。 3.使用自研调度工具对总线层数据进行转换、清洗，生成干净的数据流。 4.定期对项目整体代码review，对Python代码和SQL和储过程进行优化。 5.由于项目前期甲方提供数据不足，我负责使用Python的Pandas、Numpy、Nyhive、Flask生成模拟数据，并将数据保存到Hive、Excel中，并将数据通过接口和视图、表的方式暴露出来，以保证有数据，项目可以正常推动。 6.将明细数据仓库层进行聚合，形成业务领域的明细数据集，最后使用调度工具将数据入到Mysql中。

1120python网络爬虫

脚本开源项目

对网络安全充满热爱与激情，期间通过自学，掌握网络安全知识，包括渗透测试、漏洞挖掘、逆向分析、病毒检测、病毒木马开发、人工智能、物联网、图像隐写、web安全、二进制安全、安卓安全、Linux安全、服务器安全、数据挖掘、应急响应、应态势感知、日志分析、代码审计、安全开发、红蓝对抗等攻击方，防守方的网络安全知识等对常见的网络安全突发情况有应对思路。

1080python

Rust网站抓取工具

Mac端使用Rust开发的抓取网站数据的工具 1. 单线程抓取指定网站数据 2. 解析数据，组装成json 3. 开发linux端的php接口，接收json数据，入库mysql

2120PHPweb

网站荣耀皮肤

用了requsts来实现数据获取，用os模块来保存数据，每次保存数据时文件名以英雄名称一样，直到获取所有皮肤程序才能停下来

1010python网络爬虫

文心一言网页聊天机器人

为使用爬虫，访问百度家的AI语言大模型“文心一言”网页版，将新建对话、切换对话等基础功能集成到终端中运行，不同功能的使用通过“命令”的形式调用，主要实现有以下功能： 1. 登录：使用终端实现无界面的手机验证码登录 2. 基础对话：程序运行后无需其他操作即可开始与ai对话 3. 新建对话：只需输入对应命令即可开启新的对话 4. 查看/切换历史对话：可以查看并切换到在网页中进行过的任意一段对话 5. 帮助页：提供详细的帮助页面的入口 6. 查看对话：查看当前对话，可以让显示不完全的内容重新显示主要使用的python库为DrissionPage，是一个新兴的网页自动化库

4600python网络爬虫

基于主题增强词嵌入的短文本分类方法

摘要：背景：变应性鼻炎是一种慢性疾病，在日常生活中有多种危险因素使人容易罹患变应性鼻炎，包括接触变应原和吸入刺激物。分析可能诱发变应性鼻炎的潜在危险因素，可为患者在日常生活中减少其发生提供参考。目前关于变应性鼻炎危险因素的研究多基于调查方法，可能针对特定人群和特定场所。因此，它们可能对患者的广泛危险因素提供有限的见解。目的：社交媒体平台的存在让用户可以分享经验和观点。本研究旨在构建基于社交媒体评论识别变应性鼻炎危险因素的智能方法(TopicS-ClusterREV)。方法：检索知乎"变应性鼻炎"主题下2012年5月至2022年5月的所有数据，获得9,628条帖子和33,747条评论。首先，我们半自动构建主题词列表，通过增加预测中心词主题的任务来训练主题增强的词向量表示(topic-enhanced word vector representation, TopicS)，对Skip-gram模型进行改进。然后，我们对包含危险因素的手动注释文本项进行矢量化，并训练危险因素分类器。最后，我们将这些分类文本分组，以更好地理解识别出的危险因素。结果：我们的模型检查了3

1300python中文分词库

爬虫数据抓取、分析、自动化生成文案、自动化发布

该产品功能是：抓取百度贴吧、知道、天涯及各种论坛指定帖子，分析竞争对手数据，然后自动生成对应数据及文案，自动分配任务自动回复或者自动发帖最大化做到seo引流功能模块主要有：爬虫脚本：用于抓取百度贴吧、知道、天涯及各种论坛指定帖子并分析竞争对手数据管理后台：百度贴吧账号管理、百度贴吧管理、百度知道账号管理、百度知道管理、天涯账号管理、天涯管理等等自动回复自动发帖软件：接收管理后台发送的发送指令，自动获取网址文案等信息去自动回复或者发帖，支持自动更换ip、多客户端同时在线接收指令该产品是我做seo时一个人设计、开发的，因为这就是我的产品使用技术介绍：爬虫脚本：爬虫技术、Java、MySQL 管理后台：前端：HTML、CSS、JavaScript、jQuery、Ajax 后端：Java Web、SpringMVC、MySQL 运维：CentOS、apache-tomcat、Nginx、负载均衡自动回复自动发帖软件：Selenium、Java、JavaScript、jQuery、Ajax、跨域

1760Java正则表达式工具

爬取ci job状态

（全负责） 1. 权限认证 3. 配置基本配置，从文件中获取基本配置 3. 并发爬取网站，解析一定时间内的所有job信息，找到指定job的ci log，分析log查看ci结果成功还是失败，由谁触发 4. 处理结果，汇总失败次数，整理触发的commit信息和author，整合成邮件发送

970python网络爬虫

股票量化

通过jsoup爬虫技术将数据爬取之后进行历史数据回测，分析出指标所对应个股胜率，从而对投资者给到相对合适的投资建议，包括个股信息展示各个时间周期。

1600JavaVue 组件

人才引进小程序

岗位发布：企业可以在小程序上发布招聘信息，包括岗位描述、薪酬待遇等。简历投递：人才可以通过小程序提交个人简历，方便及时的人才储备。智能匹配：利用人工智能技术，对岗位需求和候选人进行智能匹配，提供推荐或筛选服务。在线沟通：提供在线沟通工具，企业可以直接与候选人进行沟通、安排面试等。数据分析：提供招聘数据统计和分析，帮助企业了解招聘效果，优化招聘流程。人才管理：帮助企业建立人才档案库，方便对已有人才进行管理和利用。

1780Java网页(Webview)

使用python scrapy框架对boss直聘进行数据的爬取

在数据进行爬取的时候遇到了很多问题，在使用scrapy框架时需要下载很多python的库，比如scrapy，然后还需要重新调制scarpy当中的参数，比如BOT_NAME = "boss" SPIDER_MODULES = ["boss.spiders"] NEWSPIDER_MODULE = "boss.spiders" # Crawl responsibly by identifying yourself (and your website) on the user-agent USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.76"在此框架下既可以使用selenium也可以使用requess也可以二者结合

4950python网络爬虫

网络信息采集系统

根据客户需求，进行网络信息采集，我们与他人服务的区别： 1. 专人对接每一个项目的需求，帮助客户梳理需求； 2. 强大的数据储备，行业经验丰富，常用数据集有储备甚至无需采集； 3. 支持采集量级大，每日以TB为量级计算。

820pythonDBA

电影平台统计

项目中分别统计了各个平台的每日最受欢迎的电影排名，一般只显示前10。用到的技术有爬虫、dajngo、mysql。该网页也帮助大家在选择电影的时候，更直观的选择一些反响比较好的电影，也可以查询到该电影的简介。

1100python图形/图像处理

12306查票抢票

项目共分两个部分，查票与根据查票结果抢票查票功能用requests库来完成，抢票用了selenium自动化工具来模拟操作浏览器

1090python网络爬虫

百度网站热搜排名点击客户端工具

可以实现自动打开浏览器在百度搜索指定关键词并点击网站的功能，提高网站点击量、热搜词、网站排名 1、多任务给不同客户端打开浏览器在百度点击网站； 2、我负责浏览器控制中心的升级变更，客户端的全部代码，以及适配不同浏览器的功能升级；

1170爬虫

爬虫

逆向某空气质量网解决了了无限dubug问题，搜索到虚拟内存eval计算字符得出的代码使用CryptoJS，jsdom，等方式使用python编程request模块模拟参数向接口获取数据

1170pythonPython开发工具

前端开发

1.用户可以点击栏目，切换页面内容，实现网页的动态变化。 2.基础前端搭建，基础用户交互设计。 3.前端美化，前端搭建

960Java网络爬虫

交易猫网站数据爬虫程序开源项目

基于python编程语言实现的交易猫网站数据爬虫程序，框架使用的是scrapy，抓取的数据会自动存数据库，支持滑动验证码破解和原神账号抓取

2940pythonpython

舆情分析系统

项目功能模块概述：数据抓取模块：实现从各种互联网源头如论坛、博客、新闻等抓取海量数据。情报展示模块：将抓取到的数据按照企业需求进行分析和展示，提供直观的情报，帮助企业制定竞争策略。多源数据解析模块：利用Java的htmlparser库进行html解析，提取关键信息，同时通过Python、Selenium、XPath等技术爬取Facebook、Weibo、小红薯、Google、Instagram、Twitter等平台数据。 Linux服务器支持：构建强大的Linux服务器群，用于存储和处理海量数据。用户实现的功能：使用者可以通过系统从互联网各个渠道获取大量商业价值的情报数据，系统对数据进行解析和展示，帮助企业了解竞争环境，优化竞争策略。我的贡献和技术栈：负责模块：我独立负责了从论坛和博客中抓取数据的模块，进行了grasper的优化，同时负责Linux服务器的部署，通过Shell脚本实现了持续部署能力。使用技术栈：项目核心技术包括Java的htmlparser库用于HTML解析，以及Python的Selenium、XPath解析等技术用于多源数据的爬取。

1130Java数据查询

当前共221个项目

1 2 3 4 5 6 7 8 9 10 ...

登录后即可上传、下载作品

搜索

分类

docker Unity flutter 在线帮助和支持系统数据查询智能硬件可视化 Mysql Atom 插件 iOS/iPhone/iPad开发包

网络爬虫

重点城市程序员兼职推荐

重点岗位程序员兼职推荐