AI

15点人体关键点检测模型 输入一张人物图像,实现端到端的人体关键点检测,输出图像中所有人体的15点人体关键点坐标、点位置信度和人体检测框,点位顺序如下图所示。 15点人体关键点 模型描述 该任务采用
510pytorchcv
u2net-salient-detection模型介绍 给定一张输入图像,输出视觉显著注意力图。 期望模型使用方式与适用范围 本模型适用范围较广,预测像素视觉显著注意程度,但不涉及图像中的语义信息。
480pytorchcv
FRCRN语音降噪模型介绍 我们日常可能会碰到一些录音质量不佳的场景。比如,想录制一段干净的语音却发现周围都很吵,录制的语音里往往混杂着噪声。当我们在噪杂的地铁或者巴士上通电话,为了让对方听清楚,不得
540pytorchaudio
swinL-image-panoptic-segmentation模型介绍 给定一张输入图像,输出全景分割掩膜,类别,分数(虚拟分数)。 全景分割是要分割出图像中的stuff,things。stuff
360pytorchcv
基于混合图层的高清人像美肤模型 论文 | github 人像美肤模型可用于对图像中的人体皮肤进行处理,实现匀肤(处理痘印、肤色不均等)、去瑕疵(脂肪粒、斑点、痣等)以及美白等功能。模型仅对裸露的皮肤进
390pytorchcv
RANER介绍 What's New 2023年8月: 开放域文本理解大模型 已上线,无需训练,即可完成实体识别、文本分类、阅读理解等多种任务! 2023年4月: - 如您需要自定义实体类型,请尝试
420pytorchnlp
News 2023年1月: 优化了finetune流程,支持参数更新、自定义数据及脚本分布式训练等,见finetune示例。 2022年12月: 支持了batch inference,具体见本页快速
680pytorchmulti-modal
人像修复介绍 输入一张包含人像的图像,算法会对图像中的每一个检测到的人像做修复和增强,对图像中的非人像区域采用RealESRNet做两倍的超分辨率,最终返回修复后的完整图像。 模型描述 GPEN将预训
510pytorchcv
DCT-Net人像卡通化模型 论文 | 项目主页 输入一张人物图像,实现端到端全图卡通化转换,生成二次元虚拟形象,返回卡通化后的结果图像。 其生成效果如下所示: 本仓库提供DCT-Net日漫风转换模
790tensorflowcv
Sambert-Hifigan模型介绍 模型体验及训练教程详见:Sambert-Hifigan模型训练教程 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TT
530pytorchaudio
Sambert-Hifigan模型介绍 模型体验及训练教程详见:Sambert-Hifigan模型训练教程 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TT
410pytorchaudio
读光文字检测 News 2023年10月: 新增DBNet通用场景模型和轻量化端侧模型转onnx和onnx推理功能 2023年6月: 新增轻量化端侧行检测模型和行识别模型 2023年3月: 新增DB
840tensorflowcv
Paraformer-large模型介绍 Highlights 热词版本:Paraformer-large热词版模型支持热词定制功能,基于提供的热词列表进行激励增强,提升热词的召回率和准确率。 长音
460pytorchaudio
resnet18-human-detection模型介绍 给定一张输入图像,输出图像中人体的坐标。 期望模型使用方式与适用范围 本模型适用范围较广,覆盖室内外、监控、单人多人等大部分场景。 如何使用
440pytorchcv
Sambert-Hifigan模型介绍 模型体验及训练教程详见:Sambert-Hifigan模型训练教程 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TT
510pytorchaudio
Sambert-Hifigan模型介绍 模型体验及训练教程详见:Sambert-Hifigan模型训练教程 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TT
380pytorchaudio
UniASR 模型介绍 FunASR开源项目介绍 FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过发布工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型
370pytorchaudio
基于连续语义增强的神经机器翻译模型介绍 本模型基于邻域最小风险优化策略,backbone选用先进的transformer-large模型,编码器和解码器深度分别为24和6,相关论文已发表于ACL 20
840tensorflownlp
BaSSL视频场景分割模型介绍 视频场景分割任务:场景(scene)定义为一段在语义上具有连续性的视频片段,视频场景分割指的是将一段视频分成若干个场景。 本模型使用基于ResNet-50的结构
370pytorchcv
基于连续语义增强的神经机器翻译模型介绍 本模型基于邻域最小风险优化策略,backbone选用先进的transformer-large模型,编码器和解码器深度分别为24和6,相关论文已发表于ACL 20
730tensorflownlp
当前共6711个项目
×
寻找源码
源码描述
联系方式
提交