AI

通用抠图介绍 通用抠图对输入图像中的主体进行抠图处理,支持商品、人物、动物、植物、汽车等等,无需任何额外输入,实现端到端通用万物抠图,输出四通道抠图结果,如下图所示: 抠图系列模型
1730tensorflowcv
基于混合图层的高清人像美肤模型 论文 | github 人像美肤模型可用于对图像中的人体皮肤进行处理,实现匀肤(处理痘印、肤色不均等)、去瑕疵(脂肪粒、斑点、痣等)以及美白等功能。模型仅对裸露的皮肤进
3410pytorchcv
行人属性检测模型 输入一张图像,先进行人检测,再对检测到的人体区域进行属性检识别,输出所有人体区域检测框和属性值。 模型描述 该模型主要用于行人属性识别任务,从图像中检测出人体框坐标和属性。该任务使用
2800pytorchcv
Sambert-Hifigan模型介绍 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用,故此处仅涉及参数法。 参数TTS系统可分为两
1040pytorchaudio
Highlights Paraformer 模型是一种非自回归(Non-autoregressive)端到端语音识别模型。非自回归模型相比于自回归模型,可以对整条句子并行输出目标文字,具有更高的计算效
6100pytorchaudio
Controllable Time-delay Transformer模型介绍 Highlights 中文标点通用模型:可用于语音识别模型输出文本的标点预测。 基于Paraformer-large长
1140pytorchaudio
基于HRN的高精度人头重建模型 人头重建模型以单张人像图作为输入,基于人脸重建模型HRN ,利用层次化表征实现快速人脸几何、纹理恢复,输出高精度3D人头重建mesh。 三维视觉系列模型
2350pytorchcv
Controllable Time-delay Transformer模型介绍 Highlights 中文标点通用模型:可用于语音识别模型输出文本的标点预测,支持中英文输入。 基于Paraforme
2740pytorchaudio
Sambert-Hifigan模型介绍 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用,故此处仅涉及参数法。 参数TTS系统可分为两
1020pytorchaudio
ERes2Net 说话人识别模型 ERes2Net模型是在Res2Net的基础上,对全局和局部特征进一步融合,从而提高说话人识别性能。局部特征融合将一个单一残差块内的特征融合提取局部信号;全局特征融合
3280pytorchaudio
图像人脸融合 给定一张模板图和一张目标用户图,图像人脸融合模型能够自动地将用户图中的人脸融合到模板人脸图像中,生成一张与目标人脸相似,且具有模版图外貌特征的新图像。 其生成效果如下所示: 模型描述
680pytorchcv
FSMN-Monophone VAD 模型介绍 Highlight 8k中文通用VAD模型:可用于检测长语音片段中有效语音的起止时间点。 基于Paraformer-large长音频模型场景的使用 基
2710pytorchaudio
coROM中文电商文本表示模型 文本表示是自然语言处理(NLP)领域的核心问题, 其在很多NLP、信息检索的下游任务中发挥着非常重要的作用。近几年, 随着深度学习的发展,尤其是预训练语言模型的出现极大
680pytorchnlp
FQA人脸质量评估模型介绍 稳定调用及效果更好的API,详见视觉开放智能平台:人脸属性识别、表情识别。 FQA人脸质量评估模型 模型描述 FQA模型包含3个方面的创新, rank映射, Ordinal
1540pytorchcv
CAM++说话人识别模型 CAM++模型是基于密集连接时延神经网络的说话人识别模型。相比于一些主流的说话人识别模型,比如ResNet34和ECAPA-TDNN,CAM++具有更准确的说话人识别性能和更
2760pytorchaudio
Highlights Paraformer-large长音频模型集成VAD、ASR、标点与时间戳功能,可直接对时长为数小时音频进行识别,并输出带标点文字与时间戳: ASR模型:Parformer-l
1880pytorchaudio
M2FP多人人体解析模型介绍 模型描述 M2FP(Mask2Former for Parsing,官方代码)基于 Mask2Former 架构,并进行了一些改进以适应人体解析。 M2FP 可以适应几乎
670pytorchcv
Qwen-7B-Chat ? Hugging Face   |   ? ModelScope   |    ? Paper    |   ?️ Demo WeCha
3220pytorchqwen
FSMN-Monophone VAD 模型介绍 Highlight 16k中文通用VAD模型:可用于检测长语音片段中有效语音的起止时间点。 基于Paraformer-large长音频模型场景的使用
770pytorchaudio
Paraformer-large-热词版模型介绍 Highlights Paraformer-large热词版模型支持热词定制功能:实现热词定制化功能,基于提供的热词列表进行激励增强,提升热词的召回率
3570pytorchaudio
当前共6719个项目
×
寻找源码
源码描述
联系方式
提交