自然语言处理

项目分为图像分类模块,OCR模块,NER命名实体识别模块。首先上传图片,分类出存在关键信息的图片,再经过OCR进行图片中字符提取,然后使用命名实体识别技术,对关键信息进行提取,可以实现图像的关键信息提取。负责分类模块和NER模型的模型开发,训练、部署等任务。最终系统整体准确度90%+,减少了约30%人工,同时简化了业务流程
1020python
项目背景:针对某医院智能问诊系统,开发智能问诊模块,对用户输入进行分析和判断,初步判断用户患病情况,并给出就医指南。 主要职责:负责对话引擎整体的算法设计,并进行相关大模型的微调和服务部署。其中涉及的子任务主要包括: (1). 针对用户输入信息的语义理解,抽取核心信息字段信息,主要包括病症名称词汇和病情描述信息。(2). 利用RAG技术实现对问诊流程的智能问答,包括看病流程,报销流程等等。(3). 针对用户的疾病信息进行问诊引导,包括去哪个科室,处理的流程和注意事项等等。(4).信息智能查询,通过语音查询检测结果信息等功能。 主要成果:完成整体系统的开发和大模型的微调,系统对话整体的准确率达到90%以上。
3170大模型
对天池比赛中给定的中文糖尿病文本数据集进行分类,属于一个多分类任务。通过构建自己的模型。最终实现最好的分类准确率。
680python
1. 项目模块: 数据预处理模块:这个模块负责对训练数据进行清洗、标准化和预处理,例如删除无效数据、分割数据集等。 模型训练模块:这个模块负责定义GPT模型的结构和参数,并使用训练数据对其进行训练。选择TensorFlow来实现GPT模型的训练过程。 模型评估模块。 应用模块:搭建一个视频自动生成程序。 2. 我的任务: 爬虫并进行数据预处理;使用分布式训练来加快训练速度;超参数调优:GPT模型具有多个超参数,如层数、隐藏单元数等。调整这些超参数对模型的性能和效果至关重要。你可以使用交叉验证、网格搜索或自动化调参工具来优化超参数选择。 过拟合和模型调优:GPT模型可能会面临过拟合的问题,即在训练数据上表现良好,但在新数据上的泛化能力较差。你可以采用正则化技术(如dropout)或早停策略来缓解过拟合,并进行模型调优以提高性能。
1080pythonLLM (大语言模型)
通过导入第三方AI引擎,提高识别精度。 通过自定义script脚本,在导入AI引擎的同时,根据客户需求,加入相应的逻辑处理,实现数据的检查,整合以及保存处理。
710图形/图像处理
⽂本模型在 qwen的基础上,使⽤B站爬取的问答⽂本对进⾏微调(涉及 fineturn、Pturn,QLoRA,Int 4量化推理),并 ⽤ langchain 构建训练数据库,存储模型的记忆。 ⽂本转⾳频,调⽤微软接⼝,使⽤ ChineseBert 输出情感级性并调⽤不同的声调 ⽪套使⽤ talking-head-anime-3模型,给定2维图⽚⽣成虚拟动画形象
760LLM
根据客户需求,可以通过复杂的设计流程,实现循环,判断,自定义逻辑处理,自定义数据的导出,数据库检索等等功能。
800其他
OCR项目。纸质文档的电子化处理以及各种数据处理功能,包括和各种外部系统,数据库等的数据整合。 也可以和RPA产品结合,实现数据的后期复杂处理,基本替代人工的数据处理作业。 还有一些RPA单独的项目,项目保密等原因,不方便展示成果物。
860服务框架/平台
基于windows sdk的微信客户端机器人,实现自动回复,产品推销,自动收款,商品分发。后期接入基于本地知识库的LLM实现智能客服。
1110图形/图像处理
(1) 有限自动机原理 (2) 词法分析器原理 (3)形式语言基础及其文法运算 (4) 语法分析原理以及3种常用的语法分析方法 (5) 语义分析原理 步骤: 按理说设计一个扫描器首先应该先定义一套形式文法,然后根据文法设计自动机,这些过程实验指导书中已经为我们准备好了; 在此基础上,我自己定义了一套数据结构对字符串插入查找的效率加以优化,并对整个程序的结构进行了调整优化; 在经过自动机状态、状态转移与每个状态所执行的动作后,该Scanner会将源程序解析成相应的Token序列,以作为下一步Translator的输入; 在Translator中,我根据指导书中给出的算数表达式文法结合课上所学内容,自己设计了基于自顶向下推导的Recursive Subroutine过程,并在相应位置添加了语义动作,根据这些进行Recursive Subroutine的代码实现; 我分别为Scanner和Translator设计了测试用例,对程序进行测试,结果和期望相吻合;
1790C/C++自然语言处理
整体结构可以分为实体识别和关系/属性抽取两部分,流程可以分为6步,其中2、3和4步会重复执行多次。 第1步:通过Hanlp和规则匹配的方式抽取部分实体 第2步:采用远程监督方法,用种子知识图谱对齐无标数据得到标出了实体的数据 第3步:用上一步得到的标出了实体的数据训练模型 第4步:用上一步训练的实体识别模型抽取无标数据中的实体,并将抽取出的实体加入到种子知识图谱中,增加种子知识图谱的规模,重复2,3,4步多次不断使种子知识图谱规则不断扩大 第5步:通过重复2,3,4步多次后得到扩展了大量实体的知识图谱,用种子知识图谱对齐无标数据,将无标数据中的实体都找出来 第6步:通过上一步得到无标数据中的实体后,使用规则的方法判断实体间的关系和属性
700关系抽取
该任务主要使用哈工大LCQMC数据集。LCQMC数据集是一个文本匹配数据集,它是基于人机对话任务的一项基本任务,通常被认为是语义匹配任务,有时是释义识别任务。本节的目标是计算两个文本的相似度,并得出是否相似的结果,相当于一个二分类问题。语料库包含260,068个带有人工注释的问题对,我们将其分为三部分,即包含238,766个问题对的训练集、包含8,802个问题对的验证集和包含 12,500个问题对的测试集。
840python
整体结构可以分为实体识别和关系/属性抽取两部分,流程可以分为6步,其中2、3和4步会重复执行多次。 第1步:通过Hanlp和规则匹配的方式抽取部分实体 第2步:采用远程监督方法,用种子知识图谱对齐无标数据得到标出了实体的数据 第3步:用上一步得到的标出了实体的数据训练模型 第4步:用上一步训练的实体识别模型抽取无标数据中的实体,并将抽取出的实体加入到种子知识图谱中,增加种子知识图谱的规模,重复2,3,4步多次不断使种子知识图谱规则不断扩大 第5步:通过重复2,3,4步多次后得到扩展了大量实体的知识图谱,用种子知识图谱对齐无标数据,将无标数据中的实体都找出来 第6步:通过上一步得到无标数据中的实体后,使用规则的方法判断实体间的关系和属性
900关系抽取
客户是一个迅速发展的企业,由于人力资源管理变得日益复杂,现有的人力资源管理工具已经无法满足需求。为了提高招聘和员工管理效率,客户决定开发一个智能平台来整合人力资源管理的各个环节。该平台的目标是实现高效的人力资源管理,促进组织内部的协作和沟通,并提供全面的数据分析和报告功能,以便客户做出更准确的决策。通过接入ChatGPT,客户希望为员工和管理者提供更好的用户体验,能够回答常见问题、提供指导和建议,并帮助解决一些简单的问题或任务。这将极大地减轻人力资源团队的负担,并提高整体工作效率。系统中包含的功能包含但不仅限于:提供招聘流程管理,包括发布职位、筛选简历、安排面试和评估候选人等功能; 允许客户在平台上发布招聘信息,并能自动将招聘信息推送至各大招聘渠道,如社交媒体和招聘网站; 提供人员档案管理、员工信息维护、奖惩记录管理等功能,确保人力资源数据的准确性和一致性; 支持薪酬管理,包括计算工资、发放工资、管理加班和福利等事项;根据项目需求和员工技能,提供智能化的人员分配功能,以便更好地调度和管理人力资源; 提供绩效评估标准和流程的设定,支持定期评估和反馈,以及对员工的绩效进行跟踪和分析; 生成
960python人工智能
项目为某国内top3手机厂商语音助手。 本人负责自然语言处理部分的架构设计及开发,主导了项目从0到1的过程。 项目采用Python flask框架开发,流量分发使用nginx/openresty 自然语言理解部分实现了一套自研的规则引擎用于意图判断,后改为基于transformer的深度学习模型。 目前项目日活上千万。 本项目为纯后端项目,出于保密,无法提供作品图片。
610AI
1.功能:query理解、语义相关性召回、相关性排序 2.使用ES索引、全文检索、NER模型、FAISS向量检索、tensorflow等技术,达到满意的搜索用户体验
630自然语言处理
运用爬虫获取数据集利用lora方式微调大语言模型,同时构建基于本地知识库的rag。后经测试,加入在线知识库;同时通过内网穿透程序实现远程服务。
1120可视化
使用朴素贝叶斯算法计算,爬取数据清洗处理打上标签,然后训练,保存模型再调用即可。其中难点在与数据的爬取和清洗。有了数据集直接放上去训练即可。
720自然语言处理人工智能
利用SVD分解实现PCA主成分分析,对于前期通过 skip-gram 网络训练所得的 200 维词向量,可通过该方法压缩至 100 维,同时尽可能保留模型精度
1070自然语言处理教程与指南
AI绘画 调用api
510python
当前共243个项目
×
寻找源码
源码描述
联系方式
提交