全部动态开源项目源文件源码产品系统 Java Python C/C++PHP C#TypeScript Go Swift 更多

自然语言处理

1、功能是针对用户话术的情感分析，方向为正向，中性、负向； 2、通过开源数据、ChatGPT标注数据、人工标注数据构建数据集； 3、模型选型使用BERT类NLU模型； 4、融合对抗训练等策略训练模型； 5、模型F1达到98%； 6、本人独立完成。

1480LLM (大语言模型)

CS:GO量化租赁项目

CS:GO皮肤租赁量化投资项目是基于【回报关联模型】构建的量化策略，构建关联模型的一大特点为善于运用皮肤之间间接信息，并结合传统（比如皮肤间的量价相关系数）和非传统（皮肤间在论坛中讨论热度的相关度）的关联特征。间接信息： 1. 是否为同一种类皮肤（例如刀，枪械[AK-47，M4A1等]，手套） 2. 皮肤之间回报率，换手率和波动率的相关性 3. 皮肤产业链关系（例如红色刀具搭配红色手套）利用JS爬虫技术和Python爬虫技术爬取租赁平台上全量皮肤的售价和租价，每日生成租售比(最低租赁价/最低售价)龙虎榜（Top30）并结合【回报关联模型】动态调整持仓分散风险合理投资。其中非传统的数据关联特征通过Python基于selenium的爬虫爬取CS:GO论坛文本数据，使用textblob库和transformers库对评论文字进行情感分析，量化皮肤的热度，寻找皮肤之间热度的相关度。

1590python自然语言处理

AI智能客服ssc

AI智能ssc主要是分为 admin管理端和 chatbot（智能客服）PC + H5 端组成，都是通过 react框架 + typescript + antd UI组件等技术栈搭建而成，主要为客户解决自动化审批流程，提高入转调离效率，还提供chatbot智能客服采用多轮对话形式分析用户真实意图。同时支持企业知识库，通过运营团队的不断扩展可以达到企业内部员工的问题覆盖。

1100javascript

对话机器人项目开源项目

个人构建基于酒店咨询类对话机器人 1、项目使用RASA开源框架； 2、项目内加入自己训练的情感识别模型、信息抽取模型、意图识别模型； 3、可以作为酒店有限域对话机器人； 4、项目由本人独立完成。

1130机器学习/深度学习

BERT实现文本相似度计算

该任务主要使用哈工大LCQMC数据集。LCQMC数据集是一个文本匹配数据集，它是基于人机对话任务的一项基本任务，通常被认为是语义匹配任务，有时是释义识别任务。本节的目标是计算两个文本的相似度，并得出是否相似的结果，相当于一个二分类问题。语料库包含260,068个带有人工注释的问题对，我们将其分为三部分，即包含238,766个问题对的训练集、包含8,802个问题对的验证集和包含 12,500个问题对的测试集。

1140python

金融领域舆情分析

获取金融领域一些股评文章、用户留言发帖等文本，通过自然语言处理、语法处理，构建舆情模型，实时显示舆情方向

1350Java自然语言处理

OCR项目2

根据客户需求，可以通过复杂的设计流程，实现循环，判断，自定义逻辑处理，自定义数据的导出，数据库检索等等功能。

1050其他

基于主题增强词嵌入的短文本分类方法

摘要：背景：变应性鼻炎是一种慢性疾病，在日常生活中有多种危险因素使人容易罹患变应性鼻炎，包括接触变应原和吸入刺激物。分析可能诱发变应性鼻炎的潜在危险因素，可为患者在日常生活中减少其发生提供参考。目前关于变应性鼻炎危险因素的研究多基于调查方法，可能针对特定人群和特定场所。因此，它们可能对患者的广泛危险因素提供有限的见解。目的：社交媒体平台的存在让用户可以分享经验和观点。本研究旨在构建基于社交媒体评论识别变应性鼻炎危险因素的智能方法(TopicS-ClusterREV)。方法：检索知乎"变应性鼻炎"主题下2012年5月至2022年5月的所有数据，获得9,628条帖子和33,747条评论。首先，我们半自动构建主题词列表，通过增加预测中心词主题的任务来训练主题增强的词向量表示(topic-enhanced word vector representation, TopicS)，对Skip-gram模型进行改进。然后，我们对包含危险因素的手动注释文本项进行矢量化，并训练危险因素分类器。最后，我们将这些分类文本分组，以更好地理解识别出的危险因素。结果：我们的模型检查了3

1300python中文分词库

某证券交易所合同管理平台

1. 分2个模块（1）长文本分类，包括适用法律、转让、赔偿、终止权利、权限、信息安全、委托和担保等类别（2）命名实体识别，包括乙方、主管、参与方等实现了合同PDF文档自动化抽取关键信息到数据库，便于文档的管理、查询、使用 2. 我负责算法部分：（1）使用OCR对PDF文档解析（2）使用NER抽取实体公司名，与公司名词表进行相似度计算，匹配最相似实体（3）使用BERT模型finetune，得到适用于该场景的分类模型，对文本进行分类，找到所属标签（4）将抽取到的信息存入数据库

3820自然语言处理

智能AI营销系统

主要包括素材采集、文案优化、视频制作、平台发布等多个模块组成，通过对指定主流自媒体平台的公开数据采集（可指定关键词或增量）=> 对采集文章使用AI工具（ChatGPT、百度文心、讯飞火星等）进行改写优化 => 根据优化文章内容使用AI工具（OpenAI-Dalle等）配图、配音及字幕，生成短视频 => 将全新的文章或视频自动发布到各大自媒体和短视频平台。实现完整的营销流程。

930python人工智能

OCR项目3

通过导入第三方AI引擎，提高识别精度。通过自定义script脚本，在导入AI引擎的同时，根据客户需求，加入相应的逻辑处理，实现数据的检查，整合以及保存处理。

960图形/图像处理

语音助手

项目为某国内top3手机厂商语音助手。本人负责自然语言处理部分的架构设计及开发，主导了项目从0到1的过程。项目采用Python flask框架开发，流量分发使用nginx/openresty 自然语言理解部分实现了一套自研的规则引擎用于意图判断，后改为基于transformer的深度学习模型。目前项目日活上千万。本项目为纯后端项目，出于保密，无法提供作品图片。

950AI

天池医疗文本分类

对天池比赛中给定的中文糖尿病文本数据集进行分类，属于一个多分类任务。通过构建自己的模型。最终实现最好的分类准确率。

1000python

RPA, OCR 项目开发，发布，维护，技术支持

OCR项目。纸质文档的电子化处理以及各种数据处理功能，包括和各种外部系统，数据库等的数据整合。也可以和RPA产品结合，实现数据的后期复杂处理，基本替代人工的数据处理作业。还有一些RPA单独的项目，项目保密等原因，不方便展示成果物。

1270服务框架/平台

用户情感识别

使用朴素贝叶斯算法计算，爬取数据清洗处理打上标签，然后训练，保存模型再调用即可。其中难点在与数据的爬取和清洗。有了数据集直接放上去训练即可。

1010自然语言处理人工智能

序列标注开源项目

序列标注项目 1、基于LSTM-CRF结构做序列标注项目； 2、数据来源于开源数据； 3、模型准确率95%； 4、项目为本人个人联系项目。

1070自然语言处理

AI多模态绘画系统

本系统集成实现了AI聊天、Stable Diffusion WebUI（定制）和ComfyUI应用。 1. 提供通用文字对话功能，另外，还支持使用包含“帮我画”关键词的提示词生成AI图片。 2. 以Stable Diffusion WebUI官方版本为基础，实现了闻声图简版功能，并与原版UI进行了集成。

1450python

B站 AI 虚拟直播

⽂本模型在 qwen的基础上，使⽤B站爬取的问答⽂本对进⾏微调（涉及 fineturn、Pturn，QLoRA，Int 4量化推理），并⽤ langchain 构建训练数据库，存储模型的记忆。⽂本转⾳频，调⽤微软接⼝，使⽤ ChineseBert 输出情感级性并调⽤不同的声调⽪套使⽤ talking-head-anime-3模型，给定2维图⽚⽣成虚拟动画形象

1120LLM