Object State Detection Dataset (OSDD)

Name: Object State Detection Dataset (OSDD)
Creator: 计算机科学研究所，FORTH，希腊
Published: 2022-08-19 04:43:12
License: 暂无描述

arXiv2022-08-19 更新2024-06-21 收录

下载链接：

https://github.com/philipposg/OSDD

下载链接

链接失效反馈

官方服务：

资源简介：

Object State Detection Dataset (OSDD) 是由希腊FORTH计算机科学研究所创建的一个公开可用数据集，包含超过19,000个标注，涵盖18个对象类别和9个状态类别。该数据集主要用于研究图像中的对象状态检测问题，特别是对于动态环境中的智能系统和机器人技术。OSDD通过从视频帧中提取图像，并进行详细的标注，以确保数据的多样性和真实性。该数据集的应用领域包括动作识别、规划和对象功能性识别，旨在解决对象状态检测在实际应用中的挑战。

The Object State Detection Dataset (OSDD) is a publicly available dataset created by the Institute of Computer Science at FORTH, Greece. It contains over 19,000 annotations, covering 18 object categories and 9 state categories. This dataset is primarily dedicated to research on object state detection in images, especially for intelligent systems and robotics in dynamic environments. OSDD extracts images from video frames and conducts detailed annotations to ensure the diversity and authenticity of the data. Its application fields include action recognition, planning and object functional recognition, aiming to address the challenges of object state detection in practical scenarios.

提供机构：

计算机科学研究所，FORTH，希腊

创建时间：

2021-12-16

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，物体状态检测作为一项兼具理论价值与应用潜力的任务，其研究进展受限于高质量数据集的稀缺。Object State Detection Dataset (OSDD) 的构建旨在填补这一空白，通过系统化采集与标注流程，为状态检测研究提供坚实基础。该数据集从Something-Something V2数据集的视频序列中，精心选取了13,744帧图像，涵盖18类日常家居物品与9种状态类别。标注过程采用计算机视觉标注工具（CVAT），对每幅图像中的物体边界框及对应状态进行多次复核，累计投入约350人时，最终生成19,018个高质量标注实例，确保了数据的一致性与可靠性。

特点

OSDD数据集在物体状态检测领域展现出鲜明的独特性。其核心优势在于视觉多样性：同一状态类别可跨越形态迥异的物体，例如“开启”状态同时涵盖书籍、抽屉与瓶盖，而状态间的差异往往依赖于细微特征，如瓶盖的轻微抬起区分“开启”与“闭合”。数据集涵盖五对互斥状态组合，并允许物体同时具备多个非互斥状态，如“开启且盛有液体”的杯子。与现有数据集相比，OSDD的图像背景复杂、视角多变，物体尺寸与场景设置差异显著，更贴近真实世界环境，从而为模型泛化能力提供了严峻考验。

使用方法

为深入探究物体状态检测的特性，研究者可基于OSDD设计多层次实验范式。数据集支持从简单到复杂的七种实验场景，例如单物体单状态对（OOOS）至多物体多状态（MOMS）的渐进式分析，便于系统评估模型随问题复杂度增加的性能变化。典型使用方法包括采用预训练的YOLOv4等目标检测框架进行微调，利用数据增强策略提升鲁棒性，并通过平均精度（mAP）等标准指标量化性能。此外，数据集特别适用于零样本与少样本识别任务的基准测试，以及状态检测与目标检测的对比研究，为开发专用状态检测算法提供了关键实验平台。

背景与挑战

背景概述

在计算机视觉领域，物体状态检测（State Detection, SD）作为一项兼具理论价值与应用潜力的研究方向，其核心在于识别图像中物体的瞬时状态，如“开启”或“装满”。这一任务与动作识别、功能推理等关键问题紧密交织，对于机器人系统与智能体在动态环境中的感知与决策至关重要。然而，相较于物体检测（Object Detection, OD）等成熟领域，SD的研究长期处于边缘地位，缺乏系统性的探索与基准数据集。为此，希腊福斯研究所与克里特大学的研究团队于2022年推出了物体状态检测数据集（Object State Detection Dataset, OSDD），旨在填补这一空白。该数据集包含超过19,000个标注，涵盖18个日常物体类别与9种状态类别，通过从视频片段中提取多样化的图像，提供了丰富的视角、背景与物体尺寸变化，为SD问题的深入研究奠定了实证基础。

当前挑战

OSDD数据集所应对的核心挑战在于物体状态检测这一任务本身的复杂性。首先，状态类别的类内视觉差异远大于物体类别，例如“开启”状态可能出现在书籍、瓶子、抽屉等外观迥异的物体上，而状态间的边界往往依赖于细微的细节差异，如瓶盖略微抬起即区分“开启”与“关闭”。其次，物体可能同时处于多个非互斥状态，如一个杯子既是“开启”又是“装满”，这增加了标注与模型学习的难度。在数据集构建过程中，研究团队面临了确保标注一致性与准确性的挑战，每张图像需经过至少五次检查以处理模糊情况，耗时约350人时。此外，现有SD数据集多基于第一人称视角视频，物体成像分辨率高且遮挡较少，而OSDD采用第三人称视角图像，背景复杂、物体尺寸与视角多变，旨在更真实地模拟实际应用场景，从而提升了数据集的多样性与挑战性。

常用场景

经典使用场景

在计算机视觉领域，物体状态检测数据集（OSDD）为研究者提供了一个系统评估物体状态识别性能的基准平台。该数据集涵盖了18种日常家居物体在9种不同状态下的图像，通过精心设计的实验场景，如单物体单状态对（OOOS）和多物体多状态（MOMS），深入探究了状态检测任务的复杂性与挑战性。这些经典使用场景不仅验证了状态检测相较于物体检测的更高难度，还为后续方法开发奠定了坚实的实验基础。

衍生相关工作

基于OSDD数据集，后续研究衍生出一系列经典工作，主要集中在状态检测方法的优化与扩展。例如，结合语义嵌入的零样本识别方法被引入以处理未见物体状态；两阶段检测器如Faster R-CNN被用于探索状态检测的架构适应性。此外，该数据集还促进了物体状态与动作关联建模的研究，为视觉-语言多模态推理等前沿方向提供了数据基础与实验范式。

数据集最近研究