scannet-intention

Hugging Face2025-12-22 更新2025-12-23 收录

下载链接：

https://huggingface.co/datasets/Nanase1234/scannet-intention

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集源自ScanNet室内场景扫描，带有GPT生成的人类意图注释。每个样本包含一个室内场景图像、一个目标对象和三个可能的人类意图。

创建时间：

2025-12-16

原始信息汇总

ScanNet Intention 数据集概述

数据集基本信息

数据集名称: ScanNet Intention Dataset
发布者/仓库: Nanase1234/scannet-intention
许可协议: MIT
主要任务类别: 图像到文本、视觉问答
语言: 英语
标签: 室内场景、意图识别、scannet
数据规模: 1K<n<10K

数据集描述

本数据集源自ScanNet室内场景扫描数据，并包含由GPT生成的意图标注。每个样本包含一张室内场景图像、一个目标物体以及三种合理的人类交互意图。

数据划分

划分	场景数量	图像/查询数量
训练集	596	7,383
测试集	100	1,549

注意: 训练集和测试集按物理场景进行划分，以防止数据泄露。

数据字段说明

字段	描述
`id`	样本ID
`image`	室内场景图像
`scene`	物理场景ID（例如："scene0000"）
`scan`	扫描会话ID（例如："scene0000_00"）
`target_category`	目标物体类别（例如："chair", "table"）
`bbox`	所有实例的边界框列表 `[[x, y, w, h], ...]`
`target_object_ids`	每个边界框对应的标注ID列表
`scene_reasoning`	场景上下文描述
`intention_1/2/3`	三种合理的交互意图

数据集统计

总样本数: 8,932
物理场景数: 696
物体类别数: 34
训练/测试划分: 场景级别（无场景重叠）

边界框格式

格式: COCO格式 [[x, y, width, height], ...]
每个边界框: [x, y, width, height]
x, y: 左上角坐标（像素）
width, height: 框的尺寸（像素）
当同一类别存在多个实例时，会提供多个边界框。

快速使用示例

python from datasets import load_dataset

ds = load_dataset("Nanase1234/scannet-intention")

访问训练集

train_sample = ds["train"][0] print(train_sample["target_category"]) print(train_sample["intention_1"])

访问测试集

test_sample = ds["test"][0] print(test_sample["scene"])

搜集汇总

数据集介绍

构建方式

ScanNet Intention数据集构建于ScanNet室内场景扫描数据之上，通过GPT模型生成人类意图标注，形成结构化多模态数据。该数据集从原始三维扫描中提取室内场景图像，并针对每个场景中的目标物体，如椅子或桌子，标注其边界框与实例ID。随后，利用大语言模型为每个目标物体生成三种合理的人类交互意图，确保标注的多样性与自然性。数据划分遵循场景级别分离原则，训练集与测试集之间无物理场景重叠，有效防止数据泄露，提升了模型评估的可靠性。

特点

该数据集以室内场景图像为核心，融合了目标物体检测与人类意图识别双重任务，具备鲜明的多模态特性。其标注涵盖34种常见物体类别，每个样本均提供目标物体的边界框坐标、场景上下文描述及三种可能的交互意图，形成了丰富的语义层次。数据集规模适中，包含近九千个样本，分布于近七百个独立物理场景中，确保了数据的多样性与泛化能力。场景级别的数据划分策略进一步强化了评估的严谨性，使其成为室内场景理解与意图推理研究的理想基准。

使用方法

使用ScanNet Intention数据集时，可通过Hugging Face的datasets库直接加载，便捷获取训练与测试分割。研究人员可基于图像与标注字段，构建视觉问答或图像到文本生成任务，例如利用场景图像和目标物体信息预测人类交互意图。数据中的边界框采用COCO格式，便于集成到现有物体检测框架中。通过结合场景推理描述与多重意图标注，开发者能够训练模型进行细粒度的室内场景语义理解，推动人机交互与场景感知相关技术的进步。

背景与挑战

背景概述

在计算机视觉与人工智能交叉领域，室内场景理解一直是推动具身智能与机器人交互能力发展的核心课题。ScanNet Intention数据集于近年应运而生，由研究团队基于广泛使用的ScanNet室内三维扫描数据集构建，并借助GPT模型生成标注，旨在探索人类在室内环境中与物体交互时的意图识别问题。该数据集聚焦于从静态场景图像中推断潜在的人类行为动机，不仅丰富了视觉推理任务的内涵，也为场景理解、人机交互及机器人任务规划等研究方向提供了关键的数据支持，标志着视觉语言模型在具身智能应用中的深入拓展。

当前挑战

ScanNet Intention数据集致力于解决室内场景中人类意图识别这一复杂问题，其核心挑战在于如何从单一静态图像中准确推断出多样且合理的人类交互意图，这要求模型具备深层的场景语义理解与常识推理能力。在构建过程中，数据集面临多重困难：一是标注的生成需确保意图的多样性与真实性，避免GPT模型可能产生的偏差或重复；二是需维持严格的场景级数据划分，防止因场景泄露导致模型评估失真；三是如何将三维扫描数据中的物体实例与二维图像中的边界框及语义类别精准对齐，确保多模态信息的一致性，这些因素共同构成了数据集构建与使用的关键难点。

常用场景

经典使用场景

在室内场景理解与人工智能交互领域，ScanNet Intention数据集为视觉语言模型提供了关键训练资源。其经典使用场景集中于室内图像中目标对象的人类意图识别任务，模型通过分析场景图像、目标物体类别及边界框信息，预测用户可能持有的交互意图，例如对椅子产生“坐下休息”或“移动位置”的动机。该数据集支持图像到文本生成、视觉问答等任务，促进了机器对复杂室内环境的语义理解能力。

实际应用

在实际应用层面，ScanNet Intention数据集赋能智能家居、服务机器人及增强现实系统实现更自然的人机协作。例如，家庭机器人可依据场景中的物体和预测意图自主规划行动，如协助用户整理桌子或递送物品；在AR导航中，系统能推断用户对室内设施的交互需求，提供情境化提示。这些应用提升了自动化系统的适应性与用户体验，推动了室内智能环境的实用化发展。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，主要集中在视觉语言模型预训练、意图驱动物体定位及多模态推理架构设计。例如，基于其标注的模型被用于生成室内场景的意图描述，进而增强视觉问答系统的解释能力；同时，结合边界框信息的研究探索了意图与物体实例的关联映射，促进了细粒度场景理解。这些工作扩展了数据集在计算机视觉与自然语言处理交叉领域的学术影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集