ai2thor-path-tracing-qa-v5

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/linjieli222/ai2thor-path-tracing-qa-v5

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含多个房间场景的视觉问答数据集。每个样本包含一个俯视图图像，多个侧视图图像以及相关的文字描述。数据集中的问题通常涉及房间中的位置和方向信息，要求模型根据提供的图像和描述回答问题。

创建时间：

2025-10-24

原始信息汇总

AI2Thor路径追踪问答数据集V5概述

数据集基本信息

数据集名称: ai2thor-path-tracing-qa-v5
存储位置: https://huggingface.co/datasets/linjieli222/ai2thor-path-tracing-qa-v5
配置数量: 5个独立配置

配置详情

2point配置

样本数量: 109个训练样本
数据大小: 15.46 MB
下载大小: 8.23 MB
特征字段:
- question: 字符串类型问题
- answer: 字符串类型答案
- choices: 字符串序列选项
- topdown_image: 俯视图图像
- sideview_images: 侧视图图像列表
- sideview_desc: 侧视图描述
- sideview_sentences: 空序列
- scene_id: 场景标识
- sample_id: 样本标识
- room_type: 房间类型
- side: 方位
- direction: 方向
- path_summary: 路径摘要
- dataset: 数据集来源
- question_variant: 问题变体
- num_sideview_images: 侧视图数量
- metadata: 元数据

2point_furthest配置

样本数量: 51个训练样本
数据大小: 8.24 MB
下载大小: 3.90 MB
特征字段: 与2point配置相同

2point_nearest配置

样本数量: 50个训练样本
数据大小: 7.83 MB
下载大小: 3.70 MB
特征字段: 与2point配置相同

3point_order配置

样本数量: 145个训练样本
数据大小: 29.37 MB
下载大小: 6.77 MB
特征差异:
- sideview_sentences: 字符串序列

4point_order配置

样本数量: 101个训练样本
数据大小: 25.13 MB
下载大小: 3.29 MB
特征差异:
- sideview_sentences: 字符串序列

数据特征总览

核心特征: 问题-答案对、多视角图像、场景信息
图像类型: 俯视图和侧视图
场景信息: 场景ID、房间类型、方位、方向
路径信息: 路径摘要和元数据
问题属性: 问题变体和选项

搜集汇总

数据集介绍

构建方式

在具身智能研究领域，ai2thor-path-tracing-qa-v5数据集通过AI2THOR仿真环境构建了多模态路径追踪问答任务。该数据集采用结构化采样策略，基于不同空间配置生成五种任务变体，包括两点定位、最远点识别、最近点判断以及三至四点顺序推理。每个样本通过渲染俯视图像与多视角侧视图像序列，结合路径摘要与空间关系描述，构建了涵盖160个室内场景的456个高质量问答对。

特点

该数据集以多模态空间推理为核心特征，融合了视觉与语言的双重表征。其独特之处在于同时提供俯视布局图像与动态侧视图像序列，辅以精确的空间关系描述和路径摘要。五种任务配置分别针对不同复杂度的空间推理需求，从基础定位到复杂顺序推理，形成了渐进式的难度梯度。每个样本均包含完整的元数据标注，包括场景标识、房间类型和方向信息，为模型理解三维空间关系提供了丰富上下文。

使用方法

研究人员可通过HuggingFace数据集库直接加载该数据集的五种配置变体。每个配置均提供标准化的特征字段，包括问题-答案对、视觉模态数据（俯视图像与侧视图像序列）以及结构化元数据。使用者可根据具体研究需求选择相应配置，例如利用2point配置进行基础空间定位研究，或采用4point_order配置开展复杂顺序推理实验。数据加载后可直接用于多模态模型的训练与评估，支持视觉问答、路径推理等具身智能任务。

背景与挑战

背景概述

在人工智能与计算机视觉领域，三维场景理解与路径规划是推动智能体在复杂环境中自主交互的关键研究方向。ai2thor-path-tracing-qa-v5数据集由Allen Institute for AI（AI2）主导开发，旨在通过多视角图像与自然语言问答的结合，解决智能体在室内环境中路径追踪与空间推理的核心问题。该数据集构建于AI2-THOR仿真平台之上，利用其高度逼真的室内场景模拟能力，为研究社区提供了评估模型空间认知与逻辑推理性能的标准化基准，显著促进了具身智能与视觉语言导航领域的实证研究进展。

当前挑战

该数据集致力于攻克智能体在动态环境中路径推理与多模态理解的难题，其核心挑战在于模型需同时解析俯视图、侧视图等多视角视觉信息，并关联自然语言问题以生成准确的空间决策。在构建过程中，数据采集面临仿真环境与真实世界间的语义鸿沟，需确保路径标注的几何一致性与逻辑合理性；此外，多模态数据对齐与问答对的设计需平衡复杂度与泛化性，避免标注偏差对模型评估产生干扰。

常用场景

经典使用场景

在视觉与语言推理领域，该数据集通过多视角图像与路径描述的结合，为智能体导航任务提供了基准测试平台。其经典应用体现在评估模型对空间关系的理解能力，例如根据俯视图和侧视图序列推断物体间的最短路径或最优移动顺序，这在机器人自主导航研究中具有重要价值。

衍生相关工作

基于该数据集衍生的经典研究包括结合图神经网络的跨模态推理框架Vision-and-Language Navigation（VLN）模型，以及融合强化学习的端到端路径规划算法。这些工作通过引入注意力机制与记忆网络，显著提升了智能体在长序列决策任务中的表现。

数据集最近研究