自然语言处理

项目需求评审、工作量评估以及开发人员任务分配及进度管理 架构设计,模块重构,不同院校不同版本慕课的模块迁移和整合开发 部分模块解耦,独立设计部分模块,以适应不同学校的需求 核心业务模块逻辑优化,第三方接口对接优化 数据库查询性能优化,接口响应时间优化 线上问题排查解决,项目优化迭代跟进
1010JavaWeb多媒体播放器
一个基于BERT的意图(intent)和槽位(slots)联合预测模块。想法上实际与JoinBERT类似,利用 [CLS] token对应的last hidden state去预测整句话的intent,并利用句子tokens的last hidden states做序列标注,找出包含slot values的tokens。你可以自定义自己的意图和槽位标签,并提供自己的数据,通过下述流程训练自己的模型,并在JointIntentSlotDetector类中加载训练好的模型直接进行意图和槽值预测。
820其他开发相关
可以根据需求定制完成以下内容 1、数据分析处理,python,包含数据预处理、可视化、爬虫、常见模型分析等; 2、办公自动化:excel VBA自动化、python 办公自动化 3、Axure原型设计; 4、看板搭建、数据大屏搭建
770python自然语言处理
项目介绍: 在如今信息大爆炸时期,文本信息过载问题日益严重,通过文本摘要的方式获取到海量信息中 的关键信息,以便于人们更好的理解信息,充分利用有价值的数据。 项目内容: 1、基于 Seq2seq 架构创建 Baseline-1 模型并使用提前训练词向量的方式来优化模型; 2、通过优化框架得到 PGN+attention 结构的 Baseline-2 模型,解决了 Baseline-1 无法处理 OO V 单词的问题; 3、通过优化训练算法得到 PGN+attention+coverage 结构的 Baseline-3 模型,解决之前模型中 无效重复的问题; 4、通过优化解码算法得到 PGN+attention+beam search 结构的 Baseline-4 模型,解决了无效 重复问题的同时提升了长文本摘要的表达。
860服务框架/平台
知识助理,主要供自己平时学习使用,通过上传文档,通过聊天的方式可以快速掌握自己感兴趣的东西。使用的主要技术栈有:torch、langchain、大模型、streamlit等
1920AIGC
项目介绍: 对于评论文本内容进行 1~10 的评分,来评估改文本对于用户体验的满意程度。项目采用了基于 G RU 的深度神经网络模型,进行文本多分类的任务。 工作描述: 1、训练词向量:使用 word2vec 的 cbow 模型训练词向量,并将得到的结果保存成文本。 2、训练模型及优化:构建 GRU 模型,使用训练好的词向量训练模型,使用 softmax 作为全连接 层的激活函数进行多分类任务。对于训练数据进行优化,把特殊的标点符号进行删除等。 3、结果:模型对于文本评价内容预测结果达到 92.7%
950测试工具
当前越多越多的业务开始使用多模态大模型,尤其是视觉-语言预训练模型。在实际使用中,我们通常需要对预训练模型进行调优来适配实际的业务场景,而这需要大量的资源介入且费时费力,尤其是对视觉基座的调优在资源有限的情形下几乎是不可行的。本项目探索了在不调优视觉基座的前提下,仅通过对语言端进行调优并优化推理过程,实现语言增强的零样本多标签分类任务 (Zero-shot Multi-label Classification)。本项目为国际比赛获奖项目。
930图像(Image)
项目介绍: 基于医疗知识图数据库,构建一个在线诊疗系统,用来给患者提供对应病情分析。用户通过在线系 统请求到在线诊疗服务,系统根据用户输入病情实时地为用户提供对应疾病类型。 项目内容: 1、命名实体识别(NER)任务:通过搭建BiLSTM_CRF模型,将提取出的命名实体传入下一步进行 命名实体审核(NE)任务。使用准确率,召回率和 F1-score 来评估模型,最终能够模型在训练集 和验证集的召回率分别在:0.85和0.78左右; 2、命名实体审核(NE)任务:使用BERT中文预训练模型对句子编码,构建RNN模型训练函数,通过 绘制训练和验证的损失和准确率对照曲线最终模型准确率维持在0.98左右; 3、在线部分: werobot 服务模块、主要逻辑服务模块、句子相关模型服务模块、会话管理模块, 图数据库模块以及对话(查询neo4j图数据库并返回查询结果)/Unit 模块。
870可视化
给滑雪项目开发了一个3D建模形象的雪怪对话机器人 主要运用了语音识别,情绪判断,gpt对话处理等技术 产品形象生动,上线后取得了比较好的效果
770VR/AR
在推理过程中,如果我们希望不增加计算力和空间随着推理长度的增加,可以考虑使用某些特定的算法和数据结构。例如,可以使用动态规划、滑动窗口等技巧来降低算法的时间复杂度和空间复杂度。 以动态规划为例,它是一种通过将复杂问题分解为更小的子问题来解决原问题的方法,并且保存子问题的解以避免重复计算。这样,在处理长序列的推理任务时,动态规划可以帮助我们避免不必要的重复计算,从而减少计算力和空间的消耗。 再比如,当我们在处理文本数据时,可以使用滑动窗口技术来处理长文本。滑动窗口技术允许我们在不增加额外空间的情况下,对文本序列进行分块处理,从而减少了空间复杂度。 除此之外,还有一些模型压缩和优化技术,如模型剪枝、量化、低秩分解等,可以在不牺牲太多性能的情况下,减少模型的体积和计算量,从而使得模型在推理时更加高效。 总之,通过合理地选择算法和数据结构,以及使用模型压缩和优化技术,我们可以在推理过程中不增加计算力和空间随着推理长度的增加。
650python
本项目主要提供智能翻译功能的引擎。 实现原理是利用Transformer架构通过深度学习进行语言翻译。 和流行的大语言模型翻译的主要区别在于: 1.推理速度快,参数量小,可以在端侧实行推理 2.不像生成式模型大多只用了Transformer的解码器部分。此项目同时使用编码器和解码器,环顾整个句子的前后文字关系进行翻译,提高翻译准确度 本人主要对此项目的神经网络模型进行设计编写和优化。
670LLM (大语言模型)
统计分析: t检验和ANOVA:比较多个样本组之间的差异。 非参数检验:如Wilcoxon秩和检验,用于非正态分布的数据。 多重检验校正:如Bonferroni校正和Benjamini-Hochberg方法,用于控制假阳性率。 基因表达分析: DESeq2和edgeR:用于RNA-Seq数据的差异表达分析。 limma:用于微阵列数据和RNA-Seq数据的线性模型分析。 变异检测: GATK和SAMtools:用于高通量测序数据的变异检测和注释。 VCFtools:用于处理和分析VCF格式的变异数据。 基因功能富集分析: GO(Gene Ontology)分析:用于分析基因功能分类。 KEGG:用于代谢通路分析。 DAVID和Enrichr:用于基因集富集分析。
1050C/C++数据备份
针对NLP模型无法识别长文本意图,无法进行多轮次交互意图识别等,进行意图识别增强,并赋能场景,以提升导航意图识别的准确率。客服大模型主要是针对语音导航未识别的对话实时二次识别,进行语义理解能力增强。
820自然语言处理
项目概述: 参与开发信人AI客服项目,一个集成了AI大模型和知识库的智能对话系统,旨在通过先进的技术提升AI员工的对话效果和客户互动效率。 技术演进:项目经历了从AIAGENT和RPA技术结合的初步方案,到利用rerank技术和FAQ集成的进阶版本,实现了更精准的意图识别和客户服务。 工作内容: 1. 数据库开发: 利用Milvus和Pinecone进行向量数据库的开发,优化大规模向量检索性能。 - 使用PostgreSQL和MongoDB进行关系型和文档型数据库的开发,确保数据的高效存储和查询。 2. 对话系统框架搭建: 采用LangChain和Flask框架,构建了对话系统的整体架构,支持灵活的插件式服务和API集成。 3. Embedding模型选型与应用: 负责Embedding模型的选型,为RAG系统中的文档检索和重排提供高效的文本向量化表示。 4. LLM集合应用开发: 结合百川、ChatGPT、ChatGLM等多种大型语言模型(LLM),开发了集合应用,增强了对话系统的理解和生成能力。 5. 自动化测试与质量保证: 使用Python编写自动化测试脚本,确保代码
2420自然语言处理
项目主要目的为使用 人工智能技术对新闻进行分类,减少人力成本提高效率。 1. 模型主要分为以下5个步骤进行:数据爬取、数据选择与读取、数据摘要与清洗、模型选择、模型训练与评估、模型组合与预测效验。 2. 使用python及其相关科学库如:numpy、pandas等技术开发,选择的算法模型有:词袋模型BOW(Bag of Words)、词向量(Word Embedding)、神经网络,采用交叉验证的方式训练模型,来降低过拟合情况,最后对上述三个模型的结果组合加权平均。 3. 数据爬取主要使用Python requests库。 4. 使用Jieba中文分词库对中文进行分词处理,来完成数据选择与读取。 5. 独立完成TF-IDF算法对处理好的数据进行摘要与清洗。 6. 使用开源TestCNN和TestRNN模型对数据进行处理。
1080pythonPython开发工具
遵循GSP药品流通管理规范和门诊统筹医保要求。 基于生成式大模型(GPT)技术,实现与顾客自然语言对话过程中,完成症状、疾病信息的采集和整理,对接处方流转平台和互联网医院实现处方开具,提高门店经营效率并合规
630APP
本项目(研究)提出了一种嵌入RoBERTa且基于Seq2Seq框架的RS模型框架,利用了哈工大LCSTS摘要数据集和NLPCC 2017摘要数据集中的若干原文-摘要对进行了训练,并用其编码句向量,将得到的句向量结合传统摘要算法TextRank进行电商用户评论的摘要生成。 本项目(研究)的实现,包括模型框架代码以及训练代码,均用Python语言,主要第三方库:torch、transformers。
850python自然语言处理
第一步,肯定要加载数据,处理成词元对应的索引形式,之后构建数据生成器,第二步使用预训练模型,之后设置评估指标,设置学习率调节器,设置优化器,第三步,训练,在每个轮次后评估模型,返回准确率,召回率,F1分数,最后使用测试数据预测模型
810自然语言处理
项目搭建了一个智能学术阅读云平台,目的为了帮助需要阅读学术的群体解决信息过载问题,同时填补相关学术阅读领域应用空缺。在具体功能方面, 项目计划运用统计、机器学习界的前沿方法,构建一套高性能的智能学术阅 读系统,为使用群体提供阅读路径规划,阅读历史可视化,个人知识管理, 陌生概念索引等服务,最小化用户在组织、整理、规划阅读资源上所需花费的时间精力,最大化学术阅读效率,为学术阅读提供根本性方案。除以上核心功能,平台还提供阅读资源社区服务,方便用户之间随时交流心得体会或者向平台反应改进意见。
890vue响应式 Web 框架
文本处理,内容及商品的品类、消费电商导向、货品需求词识别算法构建。货品需求词挖掘+商品分类体系的建设+识别规则制定,文本分类筛选需求品类,基于分词加规则的方式筛选出品牌,品类,导流平台等关键词,后期作为训练样本加入到实体识别中,生成命名实体识别(Bi-LSTM+CRF)模型,提升泛化能力。
470pythonpython
当前共243个项目
×
寻找源码
源码描述
联系方式
提交