pytorch

中文CLIP News 2022年11月: 发布ModelScope 1.0版本,以下能力请使用1.0.2及以上版本。 上线Huge模型(224分辨率) 上线创空间,更强大的demo展示:中文图文检
180pytorchmulti-modal
手部检测模型 输入一张图像,并对其中手部区域进行检测,输出所有手部区域检测框、置信度和标签。 模型描述 该模型主要用于手部检测任务,从图像中检测出人手框坐标、置信度和标签。该任务使用阿里云PAI-Ea
210pytorchcv
人像图片生成介绍 输入随机种子,基于StyleGAN2人像生成模型,返回高清晰(分辨率为1024x1024)的人像图片。 模型描述 StyleGAN是图像生成领域的代表性工作,StyleGAN2在St
180pytorchcv
LORE无线表格结构识别模型介绍 表格结构识别,即给定一张图片,检测出图中单元格的物理坐标(四个顶点)以及逻辑坐标(行号列号)。在无线表格中,单元格的物理坐标使用表格内文字的外接框。 模型描述 本模型
220pytorchcv
FaceMask 模型介绍 稳定调用及效果更好的API,详见视觉开放智能平台:人脸比对1:1、口罩人脸比对1:1、人脸搜索1:N、公众人物识别、明星识别。 口罩人脸识别模型FaceMask, 推荐使用
180pytorchcv
OFA-文字识别 News 2023年1月: 优化了finetune流程,支持参数更新、自定义数据及脚本分布式训练等,见finetune示例。 2022年11月: 发布ModelScope 1.0版
200pytorchmulti-modal
中文StableDiffusion-文本生成图像-通用领域 中文Stable Diffusion文生图模型, 输入描述文本,返回符合文本描述的2D图像。 模型描述 本模型采用的是Stable Dif
240pytorchmulti-modal
Baichuan 2 ?GitHub | ?WeChat ? 百川大模型在线对话平台 已正式向公众开放 ? 目录 ? 模型介绍 ⚙️ 快速开始 ? Benchmark评估 ?
230pytorch
EMOTION2VEC emotion2vec通用语音情感表征模型 emotion2vec: Self-Supervised Pre-Training for S
220pytorch
StructBERT中文情感分类模型介绍 情感分类任务,通常为输入一段句子或一段话,返回该段话正向/负向的情感极性,在用户评价,观点抽取,意图识别中往往起到重要作用。而在电商场景中,情感分类显得尤为重
210pytorchnlp
Sambert-Hifigan模型介绍 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用,故此处仅涉及参数法。 参数TTS系统可分为两
200pytorchaudio
Bad Image Detecting 模型描述 基于mobilenet-v2的一个简单基线,可以有效检测异常图像,包括编解码或者图像宽高、行偏移错误等造成的花屏,绿屏图像。 Bad
160pytorchcv
Sambert-Hifigan模型介绍 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TTS系统获得了广泛的应用,故此处仅涉及参数法。 参数TTS系统可分为两
190pytorchaudio
Image-to-Video高清图像生成视频大模型 本项目Image-to-Video旨在解决根据输入图像生成高清视频任务。Image-to-Video由达摩院研发的高清视频生成基础模型之一,其核心部
210pytorchmulti-modal
OFA-文字识别 News 2023年1月: 优化了finetune流程,支持参数更新、自定义数据及脚本分布式训练等,见finetune示例。 2022年12月: 上线创空间:OFA的中文OCR体验
220pytorchmulti-modal
Highlights Paraformer 模型是一种非自回归(Non-autoregressive)端到端语音识别模型。非自回归模型相比于自回归模型,可以对整条句子并行输出目标文字,具有更高的计算效
200pytorchaudio
RANER介绍 模型描述 本方法采用Transformer-CRF模型,使用StructBERT作为预训练模型底座,结合使用外部工具召回的相关句子作为额外上下文,使用Multi-view Traini
220pytorchnlp
DeepLPF: Deep Local Parametric Filters for Image Enhancement 模型描述 该模型为图像色彩增强模型,输入为待调色的图像,输出为增强后的图像。D
230pytorchcv
MFCCA多说话人语音识别模型介绍 Highlights 本模型主要是解决会议场景下多说话人语音识别的问题,基于ICASSP2022 M2MeT竞赛发布的真实会议场景语料库AliMeeting进行训练
200pytorchaudio
RANER介绍 What's New 2022年12月: 训练所使用的序列理解统一框架AdaSeq发布,提供30+ SOTA的复现代码! RaNER家族模型均可在链接进行访问!所使用的NER数据集均
310pytorchnlp
当前共5187个项目
×
寻找源码
源码描述
联系方式
提交