项目背景与问题当前基于Transformer的人物-物体交互(HOI)检测方法通常依赖DETR目标检测和多模态视觉语言模型(VLM)的先验知识,虽然精度高,但存在训练时间长、优化复杂等问题,特别是在同时预测物体和交互时,query表示模糊、动词和HOI标签之间存在语义差距。我们的方法:SOV-STG-VLA1. 本项目提出了一个新方法 SOV-STG-VLA,由三部分组成:2. SOV解码器:将主语-宾语-动词解耦建模,独立处理目标检测和动词识别,使用创新的交互区域表示提升表达清晰度。3. STG去噪策略:引入“特定目标引导”的去噪机制,利用真实标签信息优化query嵌入训练过程,提升训练效果与推理鲁棒性。4. VLA视觉语言顾问:设计一个融合模块,引入VLM中的视觉知识,与交互区域信息融合,同时通过动词与HOI标签之间的“桥接模块”提升交互理解能力。实验结果与贡献本方法在准确率上达到了SOTA(当前最优),同时只用了原有方法六分之一的训练轮数即可收敛,显著提高了训练效率,为HOI任务提供了更高效、更易优化的新思路。声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论