全部动态开源项目源文件源码产品系统 Java Python C/C++PHP C#TypeScript Go Swift 更多

pytorch

mPLUG-HiTeA-视频描述-英文-Base

视频描述介绍视频描述：给定一个视频，模型根据视频信息生成一句对应描述。可以应用于给一张视频配上一句文字或者打个标签的场景。你只需要输入任意一个视频，很快你就能收获对于该视频的描述。模型描述本任务

670pytorchmulti-modal

语音合成-上海话-通用领域-16k-发音人xiaoda

Sambert-Hifigan模型介绍框架描述拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用，故此处仅涉及参数法。参数TTS系统可分为两

1110pytorchaudio

DDColor图像上色

DDColor 图像上色模型该模型为黑白图像上色模型，输入一张黑白图像，实现端到端的全图上色，返回上色处理后的彩色图像。 English Version | 中文版本 Paper ｜ Github

770pytorchcv

Paraformer语音识别-中文-通用-16k-离线-large-pytorch

Paraformer-large模型介绍 Highlights 热词版本：Paraformer-large热词版模型支持热词定制功能，基于提供的热词列表进行激励增强，提升热词的召回率和准确率。长音

850pytorchaudio

CoROM文本向量-中文-电商领域-base

coROM中文电商文本表示模型文本表示是自然语言处理(NLP)领域的核心问题, 其在很多NLP、信息检索的下游任务中发挥着非常重要的作用。近几年, 随着深度学习的发展，尤其是预训练语言模型的出现极大

700pytorchnlp

人脸质量模型FQA

FQA人脸质量评估模型介绍稳定调用及效果更好的API，详见视觉开放智能平台：人脸属性识别、表情识别。 FQA人脸质量评估模型模型描述 FQA模型包含3个方面的创新, rank映射, Ordinal

1580pytorchcv

FSMN语音端点检测-中文-通用-16k

FSMN-Monophone VAD 模型介绍 Highlight 16k中文通用VAD模型：可用于检测长语音片段中有效语音的起止时间点。基于Paraformer-large长音频模型场景的使用

790pytorchaudio

StructBERT情绪分类-中文-七分类-base

StructBERT中文情绪分类模型介绍情绪分类任务，通常为输入一段句子或一段话，识别该句话情绪类别的模型。在用户评价、观点抽取、意图识别中往往起到重要作用。模型描述模型基于Structber

1010pytorchnlp

CT-Transformer标点-中文-通用-pytorch

Controllable Time-delay Transformer模型介绍 Highlights 中文标点通用模型：可用于语音识别模型输出文本的标点预测。基于Paraformer-large长

1180pytorchaudio

UniASR语音识别-中文-通用-8k-实时-pytorch

Highlights Paraformer-large长音频模型集成VAD、ASR、标点与时间戳功能，可直接对时长为数小时音频进行识别，并输出带标点文字与时间戳： ASR模型：Paraformer-

770pytorchaudio

M2FP多人人体解析

M2FP多人人体解析模型介绍模型描述 M2FP（Mask2Former for Parsing，官方代码）基于 Mask2Former 架构，并进行了一些改进以适应人体解析。 M2FP 可以适应几乎

690pytorchcv

MossFormer语音分离-单麦-8k

MossFormer语音分离模型介绍我们日常可能会遇到在嘈杂环境中进行语言交流的场景，比如在人多的餐厅里或者拥挤的人群中，同时存在着许多不同的说话人的声音，这时听者可能只对一个主说话人的声音感兴趣，

760pytorchaudio

语音合成-广东粤语-通用领域-16k-发音人jiajia

1070pytorchaudio

图像人脸融合

图像人脸融合给定一张模板图和一张目标用户图，图像人脸融合模型能够自动地将用户图中的人脸融合到模板人脸图像中，生成一张与目标人脸相似，且具有模版图外貌特征的新图像。其生成效果如下所示：模型描述

690pytorchcv

人脸识别OOD模型

RTS模型介绍稳定调用及效果更好的API，详见视觉开放智能平台：人脸比对1:1、口罩人脸比对1:1、人脸搜索1:N、公众人物识别、明星识别。人脸识别OOD模型RTS, 论文详见：Improving

950pytorchcv

Paraformer语音识别-中文-通用-16k-离线-large-长音频版

Highlights Paraformer-large长音频模型集成VAD、ASR、标点与时间戳功能，可直接对时长为数小时音频进行识别，并输出带标点文字与时间戳： ASR模型：Parformer-l

1960pytorchaudio

实时口罩检测-通用

实时口罩检测-通用模型介绍本模型为高性能热门应用系列检测模型中的实时口罩检测模型，基于面向工业落地的高性能检测框架DAMOYOLO，其精度和速度超越当前经典的YOLO系列方法。用户使用的时候，

810pytorchcv

FLCM人脸关键点置信度模型

FLCM 模型介绍稳定调用及效果更好的API，详见视觉开放智能平台：人脸属性识别、表情识别。人脸关键点置信度模型FLCM 模型描述 FLCM为达摩院自研的关键点置信度算法，基于关键点的好坏来判断输

730pytorchcv

读光-车牌检测-通用

车牌检测模型介绍给定一张图片，检测出图中车牌的位置并输出车的类型（比如小汽车，挂车，新能源车等）。模型描述本模型是以自底向上的方式: 1）首先识别出车牌的中心点；2）基于中心点回归出车牌的bbo

800pytorchcv

语音合成-四川话-通用领域-16k-发音人chuangirl

1020pytorchaudio

当前共5187个项目

1 2 3 4 5 6 7 8 9 10 ...

登录后即可上传、下载作品

搜索

分类

门户平台PORTAL JavaScript MVC 框架 ASP redis VR/AR web BBS论坛 BUG跟踪管理常用工具包自然语言处理

pytorch

重点城市程序员兼职推荐

重点岗位程序员兼职推荐