全部动态开源项目源文件源码产品系统 Java Python C/C++PHP C#TypeScript Go Swift 更多

AI

BSHM通用抠图

通用抠图介绍通用抠图对输入图像中的主体进行抠图处理，支持商品、人物、动物、植物、汽车等等，无需任何额外输入，实现端到端通用万物抠图，输出四通道抠图结果，如下图所示：抠图系列模型

1730tensorflowcv

人像美肤模型Pytorch

基于混合图层的高清人像美肤模型论文｜ github 人像美肤模型可用于对图像中的人体皮肤进行处理，实现匀肤（处理痘印、肤色不均等）、去瑕疵（脂肪粒、斑点、痣等）以及美白等功能。模型仅对裸露的皮肤进

3410pytorchcv

ResNet50行人结构化属性识别模型

行人属性检测模型输入一张图像，先进行人检测，再对检测到的人体区域进行属性检识别，输出所有人体区域检测框和属性值。模型描述该模型主要用于行人属性识别任务，从图像中检测出人体框坐标和属性。该任务使用

2800pytorchcv

语音合成-广东粤语-通用领域-16k-发音人jiajia

Sambert-Hifigan模型介绍框架描述拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用，故此处仅涉及参数法。参数TTS系统可分为两

1040pytorchaudio

Paraformer语音识别-中文-通用-16k-实时-large

Highlights Paraformer 模型是一种非自回归（Non-autoregressive）端到端语音识别模型。非自回归模型相比于自回归模型，可以对整条句子并行输出目标文字，具有更高的计算效

6100pytorchaudio

CT-Transformer标点-中文-通用-pytorch

Controllable Time-delay Transformer模型介绍 Highlights 中文标点通用模型：可用于语音识别模型输出文本的标点预测。基于Paraformer-large长

1140pytorchaudio

人头重建模型

基于HRN的高精度人头重建模型人头重建模型以单张人像图作为输入，基于人脸重建模型HRN ，利用层次化表征实现快速人脸几何、纹理恢复，输出高精度3D人头重建mesh。三维视觉系列模型

2350pytorchcv

CT-Transformer标点-中英文-通用-large

Controllable Time-delay Transformer模型介绍 Highlights 中文标点通用模型：可用于语音识别模型输出文本的标点预测，支持中英文输入。基于Paraforme

2740pytorchaudio

语音合成-四川话-通用领域-16k-发音人chuangirl

1020pytorchaudio

ERes2Net说话人确认-中文-通用-200k-Spkrs

ERes2Net 说话人识别模型 ERes2Net模型是在Res2Net的基础上，对全局和局部特征进一步融合，从而提高说话人识别性能。局部特征融合将一个单一残差块内的特征融合提取局部信号；全局特征融合

3280pytorchaudio

图像人脸融合

图像人脸融合给定一张模板图和一张目标用户图，图像人脸融合模型能够自动地将用户图中的人脸融合到模板人脸图像中，生成一张与目标人脸相似，且具有模版图外貌特征的新图像。其生成效果如下所示：模型描述

680pytorchcv

FSMN语音端点检测-中文-通用-8k

FSMN-Monophone VAD 模型介绍 Highlight 8k中文通用VAD模型：可用于检测长语音片段中有效语音的起止时间点。基于Paraformer-large长音频模型场景的使用基

2710pytorchaudio

CoROM文本向量-中文-电商领域-base

coROM中文电商文本表示模型文本表示是自然语言处理(NLP)领域的核心问题, 其在很多NLP、信息检索的下游任务中发挥着非常重要的作用。近几年, 随着深度学习的发展，尤其是预训练语言模型的出现极大

680pytorchnlp

人脸质量模型FQA

FQA人脸质量评估模型介绍稳定调用及效果更好的API，详见视觉开放智能平台：人脸属性识别、表情识别。 FQA人脸质量评估模型模型描述 FQA模型包含3个方面的创新, rank映射, Ordinal

1540pytorchcv

CAM++说话人确认-中文-通用-200k-Spkrs

CAM++说话人识别模型 CAM++模型是基于密集连接时延神经网络的说话人识别模型。相比于一些主流的说话人识别模型，比如ResNet34和ECAPA-TDNN，CAM++具有更准确的说话人识别性能和更

2760pytorchaudio

Paraformer语音识别-中文-通用-16k-离线-large-长音频版

Highlights Paraformer-large长音频模型集成VAD、ASR、标点与时间戳功能，可直接对时长为数小时音频进行识别，并输出带标点文字与时间戳： ASR模型：Parformer-l

1880pytorchaudio

M2FP多人人体解析

M2FP多人人体解析模型介绍模型描述 M2FP（Mask2Former for Parsing，官方代码）基于 Mask2Former 架构，并进行了一些改进以适应人体解析。 M2FP 可以适应几乎

670pytorchcv

通义千问-7B-Chat

Qwen-7B-Chat ? Hugging Face | ? ModelScope | ? Paper ｜ ?️ Demo WeCha

3220pytorchqwen

FSMN语音端点检测-中文-通用-16k

FSMN-Monophone VAD 模型介绍 Highlight 16k中文通用VAD模型：可用于检测长语音片段中有效语音的起止时间点。基于Paraformer-large长音频模型场景的使用

770pytorchaudio

Paraformer语音识别-中文-通用-16k-离线-large-热词版

Paraformer-large-热词版模型介绍 Highlights Paraformer-large热词版模型支持热词定制功能：实现热词定制化功能，基于提供的热词列表进行激励增强，提升热词的召回率

3570pytorchaudio

当前共6719个项目

1 2 3 4 5 6 7 8 9 10 ...

登录后即可上传、下载作品

搜索

分类

Socket Winform Swift 微信开发/微信公众号开发人工智能数据存储金融爬虫 Node.js 扩展 Python开发工具

AI

重点城市程序员兼职推荐

重点岗位程序员兼职推荐