自然语言处理

预训练大预言模型微调,使用peft库,用lora方法,使用alpaca_data_zh数据集,微调bloom-1b4-zh模型,主要分为数据处理、高效微调、模型合并等几个步骤,重点关注loss情况
1210人工智能
AI绘画 调用api
590python
【业务模块】 整体金融大模型行业调研报告项目主要分为三个部分,其中第一部分主要是待调研公司核心数据的 配置模块,主要包括三个类别下的数据信息,即:所属行业,推荐指标类别和核心指标类别等。第二 部分主要是对待调研公司的各类指标进行行业咨询内容的采集。第三部分是对于采集的信息做核心信 息抽取,完成整体摘要信息的生成。 【负责业务】 主要负责整体业务架构的算法架构设计,实现基于金融搜索大模型的信息采集和基于金融推理大模型的 调研报告生成。主要涉及到搜索大模型的应用,大模型微调和基于大模型的摘要生成等业务内容。 【效果】 整体完成了业务目标,实现了全自动的行业信息采集和摘要生成,极大地提高了行业调研报告生成的效率。
4860python大模型
项目背景:针对某医院智能问诊系统,开发智能问诊模块,对用户输入进行分析和判断,初步判断用户患病情况,并给出就医指南。 主要职责:负责对话引擎整体的算法设计,并进行相关大模型的微调和服务部署。其中涉及的子任务主要包括: (1). 针对用户输入信息的语义理解,抽取核心信息字段信息,主要包括病症名称词汇和病情描述信息。(2). 利用RAG技术实现对问诊流程的智能问答,包括看病流程,报销流程等等。(3). 针对用户的疾病信息进行问诊引导,包括去哪个科室,处理的流程和注意事项等等。(4).信息智能查询,通过语音查询检测结果信息等功能。 主要成果:完成整体系统的开发和大模型的微调,系统对话整体的准确率达到90%以上。
4090大模型
基于windows sdk的微信客户端机器人,实现自动回复,产品推销,自动收款,商品分发。后期接入基于本地知识库的LLM实现智能客服。
1410图形/图像处理
1. 项目模块: 数据预处理模块:这个模块负责对训练数据进行清洗、标准化和预处理,例如删除无效数据、分割数据集等。 模型训练模块:这个模块负责定义GPT模型的结构和参数,并使用训练数据对其进行训练。选择TensorFlow来实现GPT模型的训练过程。 模型评估模块。 应用模块:搭建一个视频自动生成程序。 2. 我的任务: 爬虫并进行数据预处理;使用分布式训练来加快训练速度;超参数调优:GPT模型具有多个超参数,如层数、隐藏单元数等。调整这些超参数对模型的性能和效果至关重要。你可以使用交叉验证、网格搜索或自动化调参工具来优化超参数选择。 过拟合和模型调优:GPT模型可能会面临过拟合的问题,即在训练数据上表现良好,但在新数据上的泛化能力较差。你可以采用正则化技术(如dropout)或早停策略来缓解过拟合,并进行模型调优以提高性能。
1410pythonLLM (大语言模型)
项目分为图像分类模块,OCR模块,NER命名实体识别模块。首先上传图片,分类出存在关键信息的图片,再经过OCR进行图片中字符提取,然后使用命名实体识别技术,对关键信息进行提取,可以实现图像的关键信息提取。负责分类模块和NER模型的模型开发,训练、部署等任务。最终系统整体准确度90%+,减少了约30%人工,同时简化了业务流程
1520python
这是一个简历文件解析的平台,我在里面负责开发“解析文件解析”功能,负责简历解析器的日常维护,修复疑难简历的解析问题。 也参与部分开发其它功能,如职位管理、快搜、上传简历、人才库等等。 个人在里面碰到的技术难点有: 简历文件很多,却要求快速、高并发的解析效果。 每人的简历格式不同,不少个性化的简历写法,尤其设计师以图片作品为主的简历,但要求精准解析出简历的所有内容,如姓名等基本信息、工作经历、教育经历等。 采用大量正则表达式来匹配内容,并需要训练大量的基础数据来匹配内容,如公司名、学校名、项目名等。
1000python人力资源管理
运用爬虫获取数据集利用lora方式微调大语言模型,同时构建基于本地知识库的rag。后经测试,加入在线知识库;同时通过内网穿透程序实现远程服务。
1530可视化
这是一个类似foxmail之类的邮件管理工具,但它是在服务器运行,并同时支持大量邮箱的。 我个人在里面负责所有的后端功能。 功能需求: - 像foxmail之类的邮件管理工具那样添加邮箱信息,并读取邮箱里面的邮件和下载附件。 - 需要大批量读取邮件,并定时轮询各邮箱。 - 将读取到的简历文件,解析出来,再将解析结果通知给各客户的接口。 - 需要保证系统的高可用、出错重试、调用日志查询、及时读取各邮箱等。 - 需要支持几乎所有邮箱类型。 - 需要支持目前的3种邮箱读取协议:IMAP、POP3、EXCHANGE。
1430python
整体结构可以分为实体识别和关系/属性抽取两部分,流程可以分为6步,其中2、3和4步会重复执行多次。 第1步:通过Hanlp和规则匹配的方式抽取部分实体 第2步:采用远程监督方法,用种子知识图谱对齐无标数据得到标出了实体的数据 第3步:用上一步得到的标出了实体的数据训练模型 第4步:用上一步训练的实体识别模型抽取无标数据中的实体,并将抽取出的实体加入到种子知识图谱中,增加种子知识图谱的规模,重复2,3,4步多次不断使种子知识图谱规则不断扩大 第5步:通过重复2,3,4步多次后得到扩展了大量实体的知识图谱,用种子知识图谱对齐无标数据,将无标数据中的实体都找出来 第6步:通过上一步得到无标数据中的实体后,使用规则的方法判断实体间的关系和属性
1160关系抽取
使用olllama加载本机模型,创建建modelfile对模型进行提示词构建,使用ngrok对ollama服务器进行反向代理进行公网访问
1130人工智能
项目分为数据采集、数据标注、数据训练、部署推理模型、测试。 负责停车场车位号数据采集、数据清洗和标注、训练等模块;
1060python
1. 该系统主要有语音clone,语音合成,语音识别,数字人等模块。主要用于合成不同声音,文本用于不同场景中,比如数字人播报,教育,医疗等 2. 主要负责,整体架构搭建,语音clone训练,核心api接口开发 3. 与多个不同行业的公司签署相关合作合同
3680JavaLLM
利用SVD分解实现PCA主成分分析,对于前期通过 skip-gram 网络训练所得的 200 维词向量,可通过该方法压缩至 100 维,同时尽可能保留模型精度
1150自然语言处理教程与指南
(1) 有限自动机原理 (2) 词法分析器原理 (3)形式语言基础及其文法运算 (4) 语法分析原理以及3种常用的语法分析方法 (5) 语义分析原理 步骤: 按理说设计一个扫描器首先应该先定义一套形式文法,然后根据文法设计自动机,这些过程实验指导书中已经为我们准备好了; 在此基础上,我自己定义了一套数据结构对字符串插入查找的效率加以优化,并对整个程序的结构进行了调整优化; 在经过自动机状态、状态转移与每个状态所执行的动作后,该Scanner会将源程序解析成相应的Token序列,以作为下一步Translator的输入; 在Translator中,我根据指导书中给出的算数表达式文法结合课上所学内容,自己设计了基于自顶向下推导的Recursive Subroutine过程,并在相应位置添加了语义动作,根据这些进行Recursive Subroutine的代码实现; 我分别为Scanner和Translator设计了测试用例,对程序进行测试,结果和期望相吻合;
2280C/C++自然语言处理
现有的抄清摘要抽取算法主要基于用户主观意识的文字生成,带有主观偏见,但是抄清工作赋能的目标是尽可能少的利用原文获取更多信息,保存更多的信息。 本项目将基于自然语言处理技术对抄清数据进行分析,快速挖掘出重要信息,并通过结构化形式展示出来。方便其他人员的信息的快速阅识。主要包括如下三步任务: 1、将诸如PDF、图片等格式抄清信息通过特定算法识别出来转为纯文本信息; 2、利用训练的算法先对文本信息进行分类处理,再基于不同类别训练的算法模型从完整的抄清信息中快速挖掘出重要信息; 3、通过直观的结构化形式展示出来。 2、拟解决的关键问题 1、将抄清信息从不同格式文件中提取出来 抄清信息储存的格式丰富多样,包括PDF、TXT、图片、DOC、EXCEL等,将抄清信息从这些不同格式中抽取出来是下游任务进行的关键,本项目将用诸如pdfplumber、PaddleOCR等python库并结合规则算法将文本信息从上述格式中抽取出来。 2、筛选任务目标需要的模型 针对本项目,从文本基础预处理出发到抄清重要信息任务展示,选取大量的领域较优模型进行对比分析,筛选适合本任务的算法模型进行后续的优化研究。
1960人工智能
整体结构可以分为实体识别和关系/属性抽取两部分,流程可以分为6步,其中2、3和4步会重复执行多次。 第1步:通过Hanlp和规则匹配的方式抽取部分实体 第2步:采用远程监督方法,用种子知识图谱对齐无标数据得到标出了实体的数据 第3步:用上一步得到的标出了实体的数据训练模型 第4步:用上一步训练的实体识别模型抽取无标数据中的实体,并将抽取出的实体加入到种子知识图谱中,增加种子知识图谱的规模,重复2,3,4步多次不断使种子知识图谱规则不断扩大 第5步:通过重复2,3,4步多次后得到扩展了大量实体的知识图谱,用种子知识图谱对齐无标数据,将无标数据中的实体都找出来 第6步:通过上一步得到无标数据中的实体后,使用规则的方法判断实体间的关系和属性
920关系抽取
1、项目描述 为了提高对互联网海量源声中舆情的分析能力,本项目构建了一个社媒数据的热点挖掘与观点提取系统。系统的主要目标为: (1)对于海量互联网源声进行过滤,保留相关数据; (2)基于过滤结果,对源声进行事件抽取与编码,聚类形成业务热榜; (3)对于各业务热榜进行观点分类,得到热点事件的用户舆情。 2、主要工作 (1)根据任务特点,从零训练了中文GPT-4模型用于源声数据的事件生成,通过三个阶段分别训练模型的中文语言建模能力,通用摘要能力和针对任务的事件生成能力; (2)分别训练了用于领域过滤,观点分类的模型,引入Prompt Learning,对比学习等技术提升模型性能; (3)尝试使用中文大模型对热点事件模块进行优化,提升热榜准确率和可读性; (4)完成服务的工程代码开发,各功能模块解耦,满足业务方的实际使用场景,部署服务到MLOPs平台。 3、项目成果 (1)截至目前,文本过滤模块和观点分类模块准确率均达到90%以上; (2)舆论热榜模块聚类簇准确率达到87%,相较于原服务准确率提升20%; (3)服务交付相关业务使用。 4、个人收获 (1)深度参与构建真实场景下的NLP应用系
4680python大模型
客户是一个迅速发展的企业,由于人力资源管理变得日益复杂,现有的人力资源管理工具已经无法满足需求。为了提高招聘和员工管理效率,客户决定开发一个智能平台来整合人力资源管理的各个环节。该平台的目标是实现高效的人力资源管理,促进组织内部的协作和沟通,并提供全面的数据分析和报告功能,以便客户做出更准确的决策。通过接入ChatGPT,客户希望为员工和管理者提供更好的用户体验,能够回答常见问题、提供指导和建议,并帮助解决一些简单的问题或任务。这将极大地减轻人力资源团队的负担,并提高整体工作效率。系统中包含的功能包含但不仅限于:提供招聘流程管理,包括发布职位、筛选简历、安排面试和评估候选人等功能; 允许客户在平台上发布招聘信息,并能自动将招聘信息推送至各大招聘渠道,如社交媒体和招聘网站; 提供人员档案管理、员工信息维护、奖惩记录管理等功能,确保人力资源数据的准确性和一致性; 支持薪酬管理,包括计算工资、发放工资、管理加班和福利等事项;根据项目需求和员工技能,提供智能化的人员分配功能,以便更好地调度和管理人力资源; 提供绩效评估标准和流程的设定,支持定期评估和反馈,以及对员工的绩效进行跟踪和分析; 生成
1390python人工智能
当前共272个项目
×
寻找源码
源码描述
联系方式
提交