单目标跟踪算法模型介绍 对于一个输入视频,只需在第一帧图像中用矩形框指定待跟踪目标,单目跟踪算法将在整个视频帧中持续跟踪该目标,输出跟踪目标在所有图像帧中的矩形框信息。 模型描述 本模型是基于OST
490pytorchcv
Sambert-Hifigan模型介绍 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用,故此处仅涉及参数法。 参数TTS系统可分为两
450pytorchaudio
模型背景 2018年,Bert等预训练语言模型的出现,给NLP下游任务带来了普遍的效果提升,成为NLP的一个重要里程碑,但这些预训练语言模型并没有反映对话的特点,比如分角色、多轮次、知识约束、讲对话策
350pytorchnlp
RANER介绍 模型描述 本方法采用Transformer-CRF模型,使用XLM-Roberta作为预训练模型底座,结合使用外部工具召回的相关句子作为额外上下文,使用Multi-view Train
230pytorchnlp
模型描述 这里我们提供基于业界领先的目标检测框架DAMO-YOLO训练的检测模型:DAMO-YOLO-M。DAMO-YOLO是一个面向工业落地的目标检测框架,兼顾模型速度与精度,其训练的模型效果超越了
250pytorchcv
视频摘要 输入一段长视频和一段文字描述,算法根据用户输入的文字对输入视频中的相关片段进行自适应的视频摘要,根据帧号可以合成一段短视频(摘要视频)。 模型结构: 如上图所示,用户输入的文字使
190pytorchcv
RANER介绍 模型描述 该模型是基于检索增强(RaNer)方法在俄语数据集MultiCoNER-RU-Russian训练的模型。 本方法采用Transformer-CRF模型,使用XLM-RoBER
240pytorchnlp
RANER介绍 模型描述 该模型是基于检索增强(RaNer)方法在孟加拉语数据集MultiCoNER-BN-Bangla训练的模型。 本方法采用Transformer-CRF模型,使用XLM-RoBE
210pytorchnlp
Segformer-B1语义分割模型介绍 其它相关模型体验Mask2Former-R50全景分割 模型描述 Neurips2021文章SegFormer: Simple and Efficient
310pytorchcv
UniASR 模型介绍 FunASR开源项目介绍 FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过发布工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型
330pytorchaudio
UniASR 模型介绍 FunASR开源项目介绍 FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过发布工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型
660pytorchaudio
GTE英文通用文本表示模型 文本表示是自然语言处理(NLP)领域的核心问题, 其在很多NLP、信息检索的下游任务中发挥着非常重要的作用。近几年, 随着深度学习的发展,尤其是预训练语言模型的出现极大的推
320pytorchnlp
GTE英文通用文本表示模型 文本表示是自然语言处理(NLP)领域的核心问题, 其在很多NLP、信息检索的下游任务中发挥着非常重要的作用。近几年, 随着深度学习的发展,尤其是预训练语言模型的出现极大的推
340pytorchnlp
3D-Speaker ERes2Net-Large 说话人识别模型 ERes2Net模型结合全局特征和局部特征,从而提高说话人识别性能。局部特征融合将一个单一残差块内的特征融合提取局部信号;全局特征融
260pytorchaudio
通用预训练模型介绍 BEiTv2(base模型,在ImageNet-1k上预训练,并在ImageNet-21k上进行微调) BEiTv2模型先在ImageNet-1k(1419万张图像,1000个类别
280pytorchcv
鲁棒图像识别介绍 鲁棒图像识别要求模型在带噪声或分布外图像输入上依然返回正确分类结果。 模型描述 离散对抗训练 (Discrete Adversarial Training, DAT) 是一种针对视觉
280pytorchcv
俄语逆文本正则化模型 模型描述 俄语逆文本正则化模型是基于FunTextProcessing 开源代码库生成,用于俄语语音识别模型结果后处理中的逆文本正则化部分。 多语言逆文本正则化&文本正则化 逆文
380pytorchaudio
韩语逆文本正则化模型 模型描述 韩语逆文本正则化模型是基于FunTextProcessing开源代码库生成,用于韩语语音识别模型结果后处理中的逆文本正则化部分。 多语言逆文本正则化&文本正则化 逆文本
630pytorchaudio
注:请使用modelscope==1.2.0以上版本 MMSpeech ASR是什么 ASR(Automatic Speech Recognition)语音识别技术,是一种将人的语音转换为文本的技术
370pytorchmulti-modal
ParaformerBert模型介绍 ModelScope-FunASR FunASR希望在语音识别方面建立学术研究和工业应用之间的桥梁。通过支持在ModelScope上发布的工业级语音识别模型的训练
340pytorchaudio
当前共161626个项目
×
寻找源码
源码描述
联系方式
提交