BaSSL视频场景分割模型介绍 视频场景分割任务:场景(scene)定义为一段在语义上具有连续性的视频片段,视频场景分割指的是将一段视频分成若干个场景。 本模型使用基于ResNet-50的结构
260pytorchcv
基于连续语义增强的神经机器翻译模型介绍 本模型基于邻域最小风险优化策略,backbone选用先进的transformer-large模型,编码器和解码器深度分别为24和6,相关论文已发表于ACL 20
550tensorflownlp
swinL-image-panoptic-segmentation模型介绍 给定一张输入图像,输出全景分割掩膜,类别,分数(虚拟分数)。 全景分割是要分割出图像中的stuff,things。stuff
300pytorchcv
Sambert-Hifigan模型介绍 模型体验及训练教程详见:Sambert-Hifigan模型训练教程 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TT
400pytorchaudio
读光文字检测 News 2023年10月: 新增DBNet通用场景模型和轻量化端侧模型转onnx和onnx推理功能 2023年6月: 新增轻量化端侧行检测模型和行识别模型 2023年3月: 新增DB
640tensorflowcv
Sambert-Hifigan模型介绍 模型体验及训练教程详见:Sambert-Hifigan模型训练教程 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TT
310pytorchaudio
基于混合图层的高清人像美肤模型 论文 | github 人像美肤模型可用于对图像中的人体皮肤进行处理,实现匀肤(处理痘印、肤色不均等)、去瑕疵(脂肪粒、斑点、痣等)以及美白等功能。模型仅对裸露的皮肤进
340pytorchcv
15点人体关键点检测模型 输入一张人物图像,实现端到端的人体关键点检测,输出图像中所有人体的15点人体关键点坐标、点位置信度和人体检测框,点位顺序如下图所示。 15点人体关键点 模型描述 该任务采用
340pytorchcv
resnet18-human-detection模型介绍 给定一张输入图像,输出图像中人体的坐标。 期望模型使用方式与适用范围 本模型适用范围较广,覆盖室内外、监控、单人多人等大部分场景。 如何使用
350pytorchcv
提供预拌混凝土质量监管、危险源管理、项目报监管理、监督机构和监督人员、基桩检测管理、检试验管理、防台防汛信息管理、施工产值填报、建筑起重机械管理、竣工验收监管理、危险源登记管理、移动应用系统、主要材料管理、项目申报管理、工程项目施工现场视频上下线功能等功能服务。
460
UniASR 模型介绍 FunASR开源项目介绍 FunASR希望在语音识别的学术研究和工业应用之间架起一座桥梁。通过发布工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型
290pytorchaudio
News 2023年1月: 优化了finetune流程,支持参数更新、自定义数据及脚本分布式训练等,见finetune示例。 2022年12月: 支持了batch inference,具体见本页快速
500pytorchmulti-modal
读光文字识别 News 2023年6月: 新增轻量化端侧识别LightweightEdge-通用场景模型和轻量化端侧行检测模型。 2023年4月: 新增训练/微调时读取本地数据集的lmdb,用训练/
390pytorchcv
Sambert-Hifigan模型介绍 模型体验及训练教程详见:Sambert-Hifigan模型训练教程 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TT
440pytorchaudio
人像修复介绍 输入一张包含人像的图像,算法会对图像中的每一个检测到的人像做修复和增强,对图像中的非人像区域采用RealESRNet做两倍的超分辨率,最终返回修复后的完整图像。 模型描述 GPEN将预训
390pytorchcv
RANER介绍 What's New 2023年8月: 开放域文本理解大模型 已上线,无需训练,即可完成实体识别、文本分类、阅读理解等多种任务! 2023年4月: - 如您需要自定义实体类型,请尝试
310pytorchnlp
FRCRN语音降噪模型介绍 我们日常可能会碰到一些录音质量不佳的场景。比如,想录制一段干净的语音却发现周围都很吵,录制的语音里往往混杂着噪声。当我们在噪杂的地铁或者巴士上通电话,为了让对方听清楚,不得
380pytorchaudio
Sambert-Hifigan模型介绍 模型体验及训练教程详见:Sambert-Hifigan模型训练教程 框架描述 拼接法和参数法是两种Text-To-Speech(TTS)技术路线。近年来参数TT
330pytorchaudio
基于连续语义增强的神经机器翻译模型介绍 本模型基于邻域最小风险优化策略,backbone选用先进的transformer-large模型,编码器和解码器深度分别为24和6,相关论文已发表于ACL 20
580tensorflownlp
u2net-salient-detection模型介绍 给定一张输入图像,输出视觉显著注意力图。 期望模型使用方式与适用范围 本模型适用范围较广,预测像素视觉显著注意程度,但不涉及图像中的语义信息。
340pytorchcv
当前共158480个项目
×
寻找源码
源码描述
联系方式
提交