Situat3DChange
收藏Hugging Face2025-05-25 更新2025-05-26 收录
下载链接:
https://huggingface.co/datasets/lrp123/Situat3DChange
下载链接
链接失效反馈官方服务:
资源简介:
Situat3DChange是一个为动态3D环境中的感知-动作建模而开发的全面数据集。与之前专注于静态场景或独立对象变化的三维数据集不同,Situat3DChange反映了真实世界物理环境和任务的流动性和发展性。该数据集包含了121K的问题-答案对、36K的变更描述和17K的重新排列指令。
创建时间:
2025-05-12
原始信息汇总
Situat3DChange数据集概述
基本信息
- 语言: 英语 (en)
- 许可协议: CC BY 4.0 (cc-by-4.0)
- 多语言性: 单语 (monolingual)
- 标注方式: 人工标注 (human-annotated)
- 任务类别: 视觉问答 (visual-question-answering)
- 数据规模: 100K < n < 1M
数据集结构
特征
id: int64Query: stringResponse: stringsituation: stringbrief_situation: stringtype: stringscan_id: string
数据划分
| 划分名称 | 样本数量 | 数据大小 (bytes) |
|---|---|---|
| caption_train | 30,963 | 12,084,515 |
| caption_validation | 4,729 | 1,895,887 |
| instruction_train | 14,832 | 5,864,088 |
| instruction_validation | 2,254 | 897,283 |
| qa_train | 106,317 | 24,134,667 |
| qa_validation | 14,714 | 3,368,004 |
关键特性
- 总下载大小: 8,336,549 bytes
- 总数据集大小: 48,244,444 bytes
- 子任务:
- 121K 问答对
- 36K 变化描述
- 17K 重排指令
数据内容
- annotation/: 所有文本标注(问答、描述、指令)
- ego_view/: 自我中心(第一人称)图像视图
- panoramic/: 当前场景的自我中心全景视图
- scene_pano/: 先前场景的全景上下文
- 3RScan-ours-align.zip: 3D点云扫描数据
数据下载
- 3RScan-ours-align.zip文件下载地址: https://huggingface.co/datasets/huangjy-pku/LEO_data/resolve/main/3RScan-ours-align.zip
搜集汇总
数据集介绍

构建方式
Situat3DChange数据集通过人工标注构建,专注于动态3D环境中的感知-动作建模。该数据集包含12.1万组问答对、3.6万条场景变化描述和1.7万条重排指令,覆盖多种任务类型。数据来源于3D点云扫描和第一人称视角图像,通过多模态数据对齐技术实现场景的时空连贯性标注。
特点
该数据集突破传统静态3D场景的局限,捕捉真实世界中动态演变的物理环境。其特色在于同时提供全景与第一人称视角的视觉数据,并配以精细的场景变化文本描述。数据规模达48.2MB,包含训练集与验证集的标准划分,支持视觉问答、场景描述和动作指令三大子任务。
使用方法
研究者可通过HuggingFace平台直接下载包含点云扫描和标注文件的压缩包。数据集按任务类型划分为描述生成、指令跟随和视觉问答三个子集,每类数据均有明确的训练验证划分。使用时应先解压3RScan-ours-align.zip文件,再根据任务需求调用对应的图像视角与文本标注进行多模态对齐研究。
背景与挑战
背景概述
Situat3DChange数据集是面向动态三维环境感知与行为建模研究的高质量标注数据集,由国际研究团队基于3RScan点云扫描数据构建。该数据集突破了传统三维数据集静态场景或孤立物体变化的局限,聚焦于真实世界中持续演变的物理环境与任务情境。数据集包含12.1万组问答对、3.6万条场景变化描述和1.7万条重排指令,通过多模态数据捕捉环境动态变化与人类行为交互的复杂关系,为具身智能、场景理解等领域提供了关键研究基础。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,动态三维场景的连续状态表征要求解决时空关系建模、多模态对齐等难题,现有计算机视觉方法对渐进式环境变化的解析精度不足;在构建过程中,需克服大规模点云数据与文本标注的精确匹配、跨视角场景一致性维护等工程挑战,同时确保人类标注者对复杂空间关系的理解准确性。数据集通过引入全景上下文对比与指令-动作对验证机制,为这些挑战提供了创新性解决方案框架。
常用场景
经典使用场景
Situat3DChange数据集在动态3D环境建模领域具有重要价值,其经典使用场景主要集中于视觉问答和动作指令理解。通过121K问答对和17K重排指令,研究者能够模拟真实世界中物体位置、属性及场景状态的连续变化过程,为智能体在动态环境中的决策提供基准测试平台。数据集独特的全景视图与点云数据结合方式,使得多模态感知与推理任务成为可能。
解决学术问题
该数据集有效解决了动态3D场景理解中的关键学术问题。传统静态场景数据集难以捕捉环境演变的时序特性,而Situat3DChange通过标注场景变化前后的全景对比、物体位移描述及关联问答,为研究连续状态转换下的视觉推理建立了新范式。其36K变化描述数据特别有助于解决物体持久性追踪和状态因果推理等认知计算难题。
衍生相关工作
基于Situat3DChange已衍生出多个标志性研究,包括动态场景图生成算法SceneGraphDiff、基于对比学习的3D状态转换预测模型DeltaNet等。数据集启发的视觉语言导航框架VLN-Transformer通过融合全景视图与指令数据,在跨模态定位任务中取得突破。其标注体系更成为后续ScanQA、3D-VQA等数据集构建的参考标准。
以上内容由遇见数据集搜集并总结生成



