RoHOI
收藏arXiv2025-07-12 更新2025-07-16 收录
下载链接:
https://github.com/Kratos-Wen/RoHOI
下载链接
链接失效反馈官方服务:
资源简介:
RoHOI数据集是一个针对人类-物体交互检测的鲁棒性基准,包含20种基于HICO-DET和V-COCO数据集算法生成的腐蚀类型,以及一种新的鲁棒性指标。数据集旨在评估模型在模拟真实世界条件下的性能,并指导未来模型的改进。数据集由卡尔斯鲁厄理工学院、湖南大学和斯图加特大学的研究团队创建,旨在解决现有模型在环境变化、遮挡和噪声等方面的鲁棒性问题。该数据集包含47,776张图像和600个交互类别,以及10,346张图像、16,199个人体实例、81个物体类别和29个动词类别。数据集将有助于提高人类-物体交互检测模型的可靠性和适应性,从而推动自动驾驶、机器人、视频监控和增强现实等领域的应用。
The RoHOI dataset is a robustness benchmark for human-object interaction detection. It encompasses 20 types of corruption generated by algorithms derived from the HICO-DET and V-COCO datasets, along with a novel robustness metric. The dataset is intended to evaluate model performance under simulated real-world scenarios and guide the improvement of subsequent models. Developed by research teams from Karlsruhe Institute of Technology, Hunan University, and the University of Stuttgart, it targets the robustness shortcomings of existing models when confronted with environmental variations, occlusions, and noise. The dataset consists of 47,776 images and 600 interaction categories, as well as an additional 10,346 images, 16,199 human instances, 81 object categories, and 29 verb categories. This dataset will help improve the reliability and adaptability of human-object interaction detection models, thereby advancing applications in domains such as autonomous driving, robotics, video surveillance, and augmented reality.
提供机构:
卡尔斯鲁厄理工学院, 湖南大学, 斯图加特大学
创建时间:
2025-07-12
原始信息汇总
RoHOI数据集概述
数据集基本信息
- 数据集名称:RoHOI
- 官方实现:RoHOI: Robustness Benchmark for Human-Object Interaction Detection
数据集用途
- 用于人机交互检测的鲁棒性基准测试
相关论文
- 官方实现基于论文《RoHOI: Robustness Benchmark for Human-Object Interaction Detection》
搜集汇总
数据集介绍

构建方式
RoHOI数据集基于HICO-DET和V-COCO两个经典的人-物交互检测数据集构建,通过算法生成20种不同类型的图像损坏,模拟真实世界中的视觉退化情况。这些损坏类型被系统地分为四类:光学系统引起的伪影、传感器、压缩和传输伪影、环境引起的伪影以及几何和场景失真。每种损坏类型包含五个严重级别,共计100种不同的损坏变体。数据集的构建过程严格遵循科学实验设计,确保每种损坏类型都能有效模拟实际应用中的视觉挑战。
特点
RoHOI数据集的核心特点在于其全面的损坏类型覆盖和精细的严重级别划分。数据集不仅包含常见的图像损坏如模糊和噪声,还引入了更具挑战性的损坏类型如屏幕裂纹和弹性变换,以全面评估模型的鲁棒性。此外,数据集还引入了两个新的鲁棒性评估指标:平均鲁棒性指数(MRI)和复合鲁棒性指数(CRI),这些指标能够更全面地反映模型在不同损坏条件下的性能表现。RoHOI的多样性和系统性使其成为评估人-物交互检测模型鲁棒性的理想基准。
使用方法
使用RoHOI数据集时,研究人员可以通过加载预设的损坏图像和对应的标注信息,对模型进行鲁棒性评估。数据集支持多种评估模式,包括单一损坏类型的性能测试和多损坏类型的综合评估。用户可以根据需要选择不同的严重级别和损坏组合,以全面了解模型在不同条件下的表现。此外,数据集提供的MRI和CRI指标可以帮助用户量化模型的鲁棒性,并与现有方法进行对比。为了获得最佳评估效果,建议在测试前对模型进行适当的微调,以适应数据集中的损坏类型。
背景与挑战
背景概述
RoHOI(Robustness Benchmark for Human-Object Interaction Detection)是由卡尔斯鲁厄理工学院、湖南大学和斯图加特大学的研究团队于2025年提出的首个专注于人-物交互(HOI)检测鲁棒性评估的基准数据集。该数据集基于HICO-DET和V-COCO数据集构建,通过引入20种算法生成的腐败类型(如光学系统伪影、传感器噪声和环境干扰等)模拟真实场景中的视觉退化问题。其核心研究目标是解决现有HOI检测模型在复杂现实条件下性能显著下降的瓶颈,填补了该领域在鲁棒性评估方面的空白。RoHOI通过提出复合鲁棒性指数(CRI)等新型评估指标,为自动驾驶、机器人辅助等安全关键应用提供了更可靠的模型验证框架。
当前挑战
RoHOI针对两大挑战展开研究:其一,领域问题的挑战表现为现有HOI检测模型对遮挡、光照变化和几何变形等现实干扰极度敏感,例如在自动驾驶场景中,模型在雨雾天气下的交互识别准确率可能骤降40%以上;其二,数据构建过程中需精确模拟多样化腐败类型,团队通过细分20种腐败至5个严重等级(共100种变体),并解决光学伪影与语义遮挡的平衡问题,例如玻璃模糊需保持物体轮廓可辨识的同时破坏纹理细节。此外,基准验证揭示当前先进模型的MRI指标平均下降达35.7%,凸显了开发抗干扰算法的紧迫性。
常用场景
经典使用场景
RoHOI数据集作为首个专注于人-物交互(HOI)检测鲁棒性评估的基准,广泛应用于计算机视觉领域中对模型抗干扰能力的系统性测试。其通过模拟20种现实世界中的图像退化类型(如运动模糊、传感器噪声、环境遮挡等),为研究者提供了评估HOI检测模型在复杂场景下稳定性的标准化平台。该数据集尤其适用于验证模型在自动驾驶、机器人辅助等安全关键场景中应对突发视觉干扰的能力。
衍生相关工作
RoHOI催生了多项创新性研究:基于语义感知掩码的渐进学习(SAMPL)方法通过动态调整训练难度提升模型鲁棒性;RLIPv2等工作利用该基准验证了多模态预训练对交互推理的增强作用。后续研究如UAHOI引入不确定性估计,VLM-HOI探索视觉语言模型在HOI中的泛化能力,均以RoHOI作为核心评估体系。
数据集最近研究
最新研究方向
在视觉场景理解领域,人-物交互(HOI)检测作为关键任务,其研究正日益聚焦于模型在真实复杂环境中的鲁棒性。RoHOI数据集的推出填补了该领域系统性鲁棒性评估的空白,通过模拟光学系统畸变、传感器噪声、环境干扰和几何失真等20类算法生成的退化因素,为模型在遮挡、光照变化等实际挑战下的性能提供了标准化测试平台。当前前沿研究主要围绕基于语义感知的渐进式学习策略展开,如论文提出的SAMPL方法通过动态掩码机制引导模型整合全局与局部线索,显著提升了Transformer架构在退化条件下的表现。这一方向与自动驾驶、机器人辅助等安全关键应用的需求紧密契合,尤其在应对突发性视觉干扰方面具有重要实践价值。
相关研究论文
- 1RoHOI: Robustness Benchmark for Human-Object Interaction Detection卡尔斯鲁厄理工学院, 湖南大学, 斯图加特大学 · 2025年
以上内容由遇见数据集搜集并总结生成



