five

Occluded Object Detection Dataset

收藏
arXiv2025-04-07 更新2025-04-09 收录
下载链接:
http://arxiv.org/abs/2504.04781v1
下载链接
链接失效反馈
官方服务:
资源简介:
本研究构建了一个大规模的多模态链式思维数据集,包含超过110k个手持遮挡物体的图像-文本对。数据集基于ObMan数据集,引入了结构化的推理过程,包含描述阶段、自我反思阶段和最终决策阶段,以逐步提高对遮挡物体的识别能力。数据集旨在解决视觉语言模型中遮挡对象理解的问题,适用于多模态任务,如物体识别、场景理解等。

This study develops a large-scale multimodal chain-of-thought dataset containing over 110k image-text pairs of hand-held occluded objects. Based on the ObMan dataset, this dataset incorporates a structured reasoning workflow encompassing the description phase, self-reflection phase and final decision-making phase, to progressively improve the recognition capability of occluded objects. This dataset is designed to address the issue of occluded object understanding in vision-language models, and is applicable to multimodal tasks including object recognition, scene understanding, and other related tasks.
提供机构:
中国科学院上海微系统与信息技术研究所
创建时间:
2025-04-07
搜集汇总
数据集介绍
main_image_url
构建方式
Occluded Object Detection Dataset的构建过程体现了多模态数据融合与三维感知技术的深度结合。研究团队基于ObMan数据集中的手部抓取物体合成图像,通过两阶段框架系统性地采集了110,671组图像-文本对。在第一阶段,同步预训练了视觉语言模型和三维重建专家模型,其中视觉编码器采用渐进解冻策略,而三维模型则通过合成数据预训练与真实场景微调相结合的方式处理遮挡问题。第二阶段创新性地设计了包含描述、自反思和最终决策的三阶段链式思维标注体系,每个样本均配备结构化的问题-答案对,通过监督学习与混合偏好优化的双重策略完成知识蒸馏。
特点
该数据集的核心价值在于其首创的多模态链式思维标注体系与三维几何监督的协同机制。样本涵盖复杂的手部遮挡场景,每个对象均通过五步渐进式推理流程进行标注:从基础几何属性描述到视觉清晰度自评估,最终结合三维重建结果完成物体识别。数据维度上,既包含二维视觉特征与文本指令的对应关系,又整合了三维专家模型生成的空间几何特征。特别值得注意的是,数据集通过合成到真实的迁移策略确保了遮挡处理的泛化能力,其标注的思维链过程可支持模型发展出自反思的推理能力。
使用方法
该数据集的使用需依托提出的OCC-MLLM-CoT-Alpha框架进行多阶段知识迁移。研究者可首先加载预训练的视觉语言基座模型,通过三阶段指令微调适配链式思维数据:描述阶段学习物体几何属性与遮挡关系的映射,自反思阶段建立视觉清晰度判断能力,最终决策阶段融合三维重建特征完成识别。评估时建议采用描述得分、反思得分和决策得分的三级指标体系,对应验证基础感知、推理逻辑和综合决策能力。对于新任务场景,可通过激活三维专家模型生成辅助几何特征,配合思维链提示工程实现知识迁移。
背景与挑战
背景概述
Occluded Object Detection Dataset是由上海微系统与信息技术研究所的王超一和李宝清等研究人员于2025年提出的一个多模态视觉语言推理数据集。该数据集旨在解决当前多模态大语言模型在理解遮挡物体方面的局限性,核心研究问题聚焦于如何通过3D感知监督和思维链引导来增强模型对遮挡物体的识别能力。数据集包含11万份手部遮挡物体的样本,并附带多模态思维链标注,为计算机视觉和自然语言处理领域的交叉研究提供了重要资源。该数据集的建立推动了遮挡物体理解技术的发展,并为后续研究提供了基准测试平台。
当前挑战
Occluded Object Detection Dataset面临的挑战主要体现在两个方面:领域问题方面,遮挡物体的识别需要模型具备强大的三维空间推理能力和对不完整视觉信息的理解能力,这对现有视觉语言模型的几何推理和跨模态对齐提出了更高要求;构建过程方面,数据采集需要精确标注手部遮挡情况下的物体属性,且多模态思维链的标注需要协调视觉特征与语言描述的对应关系,这对标注质量和一致性带来了显著挑战。此外,如何平衡3D重建模型的精度与计算效率,以及如何设计有效的多阶段推理框架,都是构建过程中需要解决的关键技术难题。
常用场景
经典使用场景
在计算机视觉与多模态大模型研究领域,Occluded Object Detection Dataset为解决遮挡物体识别难题提供了关键数据支撑。该数据集通过11万样本构建的多模态思维链标注,支持模型从基础属性描述、自我反思到最终决策的三阶段推理,尤其适用于评估模型在复杂遮挡场景下的渐进式认知能力。其典型应用场景包括机器人抓取、增强现实等需要理解部分可见物体的智能系统开发。
衍生相关工作
该数据集催生了OCC-MLLM系列研究,包括融合双视觉编码器的OCC-MLLM- Alpha模型,以及引入测试时自监督学习的改进版本。相关成果推动了MOHO等3D重建方法在遮挡处理中的应用,并启发了Visual-O1等思维链推理框架的设计。其构建方法被扩展至HOI4D等手物交互数据集,形成遮挡感知研究的技术范式。
数据集最近研究
最新研究方向
在计算机视觉与多模态大模型融合的前沿领域,Occluded Object Detection Dataset的最新研究聚焦于三维感知与思维链协同的遮挡物体识别范式。通过构建包含11万样本的多模态思维链推理数据集,研究团队创新性地将3D重建专家模型与大语言模型结合,形成了分阶段感知-推理框架。该方向显著提升了模型在描述分数(15.75%)、反思分数(15.30%)和决策分数(16.98%)等核心指标上的表现,为自动驾驶、机器人抓取等需要处理复杂遮挡场景的应用提供了新的技术路径。当前研究热点集中于三维几何先验与多模态思维链的深度融合,以及合成数据到真实场景的迁移学习策略优化。
相关研究论文
  • 1
    OCC-MLLM-CoT-Alpha: Towards Multi-stage Occlusion Recognition Based on Large Language Models via 3D-Aware Supervision and Chain-of-Thoughts Guidance中国科学院上海微系统与信息技术研究所 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作