自然语言处理

项目分为:旅游知识图谱构建模块、路径规划模块、对话机器人模块,对使用者来说实现了一部手机游北京的功能 我负责关键部分的NLP、知识图谱算法的解决,最终达到了信息的准确度提升30%,系统运行流畅度提升50%。 难点:非结构化-半结构化-结构化数据的对齐、领域大模型的训练、层次化本体构建、实例层建模、结构化数据的抽取
720知识图谱
平台上线热词榜,热门词云。基于 jieba 进行大量文本原始数据词的初切分,插入前缀树,通过 ngrams 统计文本词频,计算各个 ngram 的凝固度,保留高于某个阈值的片段,通过凝固度+左右信息熵+词频的方式来进行新词发现,公式为:score = PMI + min (左熵, 右熵)。
770python
智能对话系统: 1、产品设计:原型设计+模型设计+模块设计 2、产品研发: (a)带领团队进行产品开发 (b)引擎模块的设计与研发 (c)对话公司整体呼叫中心的产品 3、产品推广: (a)产品推广方案的设计 (b)产品功能讲解与客户关系维护 (c)产品经过多轮POC
760Java自然语言处理
项目分为:向量知识库的构建模块、大模型对话模块,对使用者来说实现了PDF文档集合的智能分析 我负责前后端的开发、开源LLM的部署、向量数据库的解决方案,最终达到了PDF检索准确性提高20%,工作效率提升50%。 难点:将PDF切片并且检索相关部分、大模型部署和推理、向量数据库的使用
1030
项目介绍: 结合算法端机器学习、深度学习模型及LLM能力搭建一个支持多租户,可扩展的 供应链域计划单据体系,基于策略中心、计划单据中心实现供应链计划域从需求到建议再到计划 的产出,指导执行实现灵活采、补、调。提升商家与小二协同效率的同时,优化采购、补货、调 拨准确率,降低缺出风险。打造供销协一站式平台,提供运营实时把控营销、需求、供给情况调 整售卖策略,优化供给降低售罄率与退供率。 使用的技术框架及中间件(阿里内部组件以下是平替):Mysql,Redis,Hive,ElasticSearch,ElasticJob,RocetMQ,Setinal,nacos 主要工作职责: 1. 基于大模型对商品标签进行商品规格属性提取,对接同品匹配算法模型实现跟进竞价系统, 提升淘菜菜价格力。 2. 负责计划域策略中心,计算调度中心,计划单据中心、预测中心的架构设计,对计划域服务 进行重构。 3. 担任计划域系统重构PM,负责协调供应链计划上下游资源,把控重构项目进度及项目风险, 推动重构项目落地以及上线灰度切换及数据对账。 4. 基于DTS调度中心、预测中心和策略中心打造T0,T1销量预测白盒化
550JavaJava
1. 项目收集评论数据训练AI模型,可生成优、中、坏三个等级的评价系统,分析用户对于商品的评价体系。 2. 负责数据的收集和整理,模型的搭建、训练以及调参,生成参数模型。
740python自然语言处理
语义检索系统产品系统
基于语义的检索系统主要分召回阶段和排序阶段,召回阶段要训练语义模型,之后构建索引库评估召回1,召回5,召回10等等,之后要用语义模型提取每个文本的语义向量,之后构建milvus索引库,写service,rpc,配置,之后启动服务,测试模型提取向量效果,查询milvus库召回效果,排序阶段首先要用单塔或双塔模式训练个排序打分模型,之后对测试集排序,之后也一样,写排序service,rpc,配置排序参数,之后启动排序service,之后写个总的运行程序,先去访问召回service,获取召回topk结果,之后把结果传给排序service,让排序service打分,最后整个系统完成
660机器学习/深度学习
【项目描述】12345热线及政府网站等有大量的市民投诉,无法精准分类和定位热点事件,给决策层造成困扰。基于此,借助大模型及深度学习算法,对投诉内容进行分类和内容识别摘要 【责任描述】项目开发主力人员。负责项目的功能设计讨论及实现。 【主要模块】 1.大模型管理:管理开源的大模型的基础信息,如:请求地址,请求参数等 2.规则管理:主要从往期热点事件中提取规则,用于匹配持续热点事件 3.热点事件聚类:将每天的投诉内容进行聚类,统计数据量达到阈值的事件 4.报告管理:主要生成每天的热点事件日报、周报、月报等
560pythonAI
将主流大模型通义千问和通义万象接入微信用户,达到AI聊天和AI绘图的效果。该项目也支持其他模型,同时能在群聊中进行问答和回复。
740
将上万条数据进行清洗和处理成适合模型的训练数据集,对BLOOMZ模型使用数据集进行多次微调训练,主要包括模型的隐藏功能训练和还原功能训练两部分,训练完成后继续对模型无法正常读取换行内容、无法对特定内容进行隐藏等功能不足的地方进行调试。 调试完毕的模型能够对用户需要输出到公共平台的内容进行隐私实体替换和还原,可以有效提升需出域数据的安全性。
1050机器学习/深度学习
用于提升孩子英文阅读和口语的免费播放器。 - 1000本英文原版书, 与美国青少年同步课外阅读 - 不仅是看书,还能随时随地练听说,把贴身外教请回家 - 国际领先的A-Z分级阅读法,9-14岁孩子都能找到自己喜欢的 - 在线老师指导,让孩子科学阅读,养成好的阅读习惯
710PHP自然语言处理
云胶片系统是一款创新的医学影像数字化及云诊疗服务平台,它依托于云计算、机器学习、大数据、移动互联网等技术,并遵循DICOM协议,助力医疗机构实现无胶片化技术革命。医生可以进行阅片诊疗服务,患者可以调阅、下载检查资料。
470Java人工智能
数字时代,数字产品泛滥,互联网平台多不胜数。那个这个数字人就是你在不同的电子产品、不同平台上的分身,代替你行人的职责。除了文章开头说的三个案例外,至少还可以用于: 电子导游; 电子解说员; 虚拟老师; 售前、售后客服; 前台指引。
580tensorflow
N4-乙酰半胱氨酸(AC4C)RNA是一个具有挑战性的数据集,因为它很难观察AC4C的过程,并且其类别极不平衡。而且高度封装的集成模型可能无法很好地用于该数据集。AC4C现有的最佳模型可能无法实现研究中更精确的预测,并且模型的大小使应用受到在线服务器形式的限制。为了解决这个问题,我们提出了ResVariant结构,并使用带这该结构的自编码器(AE)进行训练和应用,我们称这个模型为AEResVar。本文提出的AEResVar模型由编码器和解码器组成。该模型的特殊性在于解码器中的ResVarant层,它通过添加完全连接的隧道来增强解码能力。另一个特殊点是解码器使用编码器Dense输出作为输入,由于对解码器中激活函数的反向分析,这使得其包含更多的边缘信息。 我独自完成了该项目周期在三周左右。项目链接见:https://www.kaggle.com/code/spike8086/improving-representational-ability-in-ac4c
420
项目分为:脑科学知识抽取模块、知识图谱构建模块、知识查询和分析模块,对使用者来说实现了250万篇脑科学文献的智能分析 我负责关键部分的NLP、知识图谱算法的解决,最终达到了抽取了3000万条知识,准确率提升50%。 难点:从科学文献中抽取出结构化的知识、领域大模型的训练
580python自然语言处理
项目描述:“乾坤仪”是阿里巴巴营销洞察中心的一款业内新媒体监测产品,主要服务于天猫、淘宝、饿了么、阿里云、菜鸟、夸克等BU市场运营人员,用于在新媒体上评估活动效果、监测竞争趋势等,新榜主要为其提供数据支撑。 工作职责: 1. 原料准备,数据建模,数据清洗。跨多平台,使用python(numpy,pandas,matplotlib ,sklearn等)进行前期数据清洗,特征选择,发kakfa,DataWorks表分区存储,直播、商品、账号等多维度多层级映射关联。 2. 文本处理,内容及商品的品类、消费电商导向、货品需求词识别算法构建。货品需求词挖掘+商品分类体系的建设+识别规则制定,文本分类筛选需求品类,基于分词加规则的方式筛选出品牌,品类,导流平台等关键词,后期作为训练样本加入到实体识别中,生成命名实体识别(Bi-LSTM+CRF)模型,提升泛化能力。 3. 文本、数值等多维度特征提取挖掘,发现潜力、爆款商品和品类,为服务商、618和双十一赋能。基于阿里提供原型图中各子模块数据要求,进行跨表关联,多字段计算,完成数据挖掘,趋势洞察,配合提供定制化API,并协助乾坤仪的前端展示服务商,完
990pythonpython
构建模型预测手写文本的内容,使用到卷积网络CNN和时间序列的网络RNN,构建输入图片和文本标签,先提取图片特征,之后把特征输入LSTM带记忆的网络,最后获取模型对图片中的文本序列中每个字符的预测概率分布,用ctc损失引导模型学习,输出的概率是序列中的字符在字符集中的概率,最大的那个是模型的预测,返回的输出是每个时间步(字符)在字符集中的概率分布
1940图形/图像处理
主要分为两个大模型,一个解码器一个合成器,在解码器部分采用了wavenet作为encoding之后的核心算法,还附带了其他语言应用的功能
290
主要分为两个大模型,一个解码器一个合成器,在解码器部分采用了wavenet作为encoding之后的核心算法,还附带了其他语言应用的功能
380
用transformer的机器翻译,进行中文到英文的翻译,使用的是cmn-eng这个小型数据集,用transformer让模型自由学习写诗,用transformer共享encoder,decoder词嵌入,实现对联模型,对于编码器原序列,用遮挡填充的掩码,这样编码器的输出中序列中的每个token的表示就变成了整个序列token表示的加权和形式,解码器自注意力用因果掩码,让目标输入序列注意到自己已经有的token序列,之后用自注意力后的输出做query,编码器的输出做key,value,因为编码器的输出中每个token时间步都是整个序列的混合信息,所以解码器跨注意力时,解码器的输出就包含了源序列整个序列的上下文信息,以此来预测下一个token
730人工智能
当前共243个项目
×
寻找源码
源码描述
联系方式
提交