embodied_reasoner

Hugging Face2025-03-22 更新2025-03-23 收录

下载链接：

https://huggingface.co/datasets/zwq2018/embodied_reasoner

下载链接

链接失效反馈

官方服务：

资源简介：

Embodied-Reasoner是一个为Embodied Interactive Tasks设计的多模态推理数据集，包含9,390个观察-思考-行动轨迹，适用于训练和评估多模态模型在室内环境中的复杂任务执行能力。

创建时间：

2025-03-19

原始信息汇总

Embodied-Reasoner 数据集概述

数据集简介

Embodied-Reasoner 是一个多模态推理数据集，专为具身交互任务设计。该数据集包含 9,390 条 观察-思考-行动 轨迹，用于训练和评估能够在室内环境中执行复杂具身任务的多模态模型。

关键特性

丰富的视觉数据：包含 64,000 张第一人称视角的交互图像。
深度推理能力：涵盖 800 万思考标记，包括分析、空间推理、反思和规划。
多样化的环境：涵盖 107 种不同的室内场景（如厨房、客厅等）。
丰富的交互对象：包括 2,100 个交互对象和 2,600 个容器对象。
完整的交互轨迹：每个样本包含完整的观察-思考-行动序列。

数据集统计

训练数据（9,390 个样本）

data_engine_origin_trajectory_9390.json：原始的 9,390 条生成轨迹。
train_multiturn_9390.json：将 9,390 条轨迹转换为多轮对话训练格式。
data/images：与轨迹对应的图像。

评估数据（809 个测试案例）

test_809.json：测试数据。
agent_positions.json：评估集的辅助位置信息。

数据集使用说明

多轮对话训练语料库对应于 train_multiturn_9390.json，该文件来自 data_engine_origin_trajectory_9390.json。
所有图像存储在 data/images 中，需要解压所有 zip 文件。

`data_engine_origin_trajectory_9390.json` 文件说明

该 JSON 文件包含所有合成的轨迹数据。每条轨迹是 观察-思考-行动 交替的，思考包括多种不同的思维模式，如 情境分析、自我反思、空间推理、验证和任务规划。

每条轨迹包含以下组件：

trajectory：记录整个轨迹，包括多个思考（如情境分析、空间推理等）和每个步骤的决策行动。
images：初始化时，AI2THOR 提供一个初始观察图像 init_image，每次交互生成的新图像按顺序存储在 images 中。
tasktype 和 sub_tasktype：任务类型和子任务类型。
key_action：关键动作。
scene：场景。
Instruction：指令。

使用场景

该数据集适用于：

训练具身 AI 代理。
视觉-语言推理研究。
长时程任务规划。
视觉搜索任务。
多轮交互系统。

引用

如果在研究中使用该数据集，请引用以下论文： bibtex @article{embodied-reasoner, title = {Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks}, author = {Wenqi Zhang and Mengna Wang and Gangao Liu and Huixin Xu and Yiwei Jiang and Yongliang Shen and Guiyang Hou and Zhe Zheng and Hang Zhang and Xin Li and Weiming Lu and Peng Li and Yueting Zhuang}, journal = {arXiv preprint arXiv:2503.xxxxx}, year = {2025} }

许可证

该数据集根据 Apache 2.0 许可证发布。

联系方式

如有问题，请联系：

zhangwenqi@zju.edu.cn
lipeng@iscas.ac.cn

搜集汇总

数据集介绍

构建方式

Embodied-Reasoner数据集通过AI2-THOR仿真环境构建，生成了9,390条观察-思考-动作轨迹，涵盖了107种不同的室内场景。每条轨迹包含丰富的视觉数据和深层次的推理过程，通过多模态交互任务生成，旨在训练和评估能够在复杂室内环境中执行任务的模型。数据集的构建过程包括从初始观察到最终动作的完整交互序列，确保了数据的多样性和复杂性。

特点

Embodied-Reasoner数据集以其丰富的视觉数据和深层次的推理能力著称，包含64,000张第一人称视角的交互图像和800万条思考标记，涵盖了分析、空间推理、反思和规划等多种思维模式。数据集涵盖了107种室内场景和4,700个交互对象，提供了完整的观察-思考-动作序列，适用于多模态推理和长程任务规划的研究。

使用方法

使用Embodied-Reasoner数据集时，可通过`train_multiturn_9390.json`文件获取多轮对话格式的训练数据，该文件由原始轨迹数据`data_engine_origin_trajectory_9390.json`转换而来。所有图像存储在`data/images`目录下，需解压后使用。每条轨迹包含观察、思考和动作的完整序列，适用于训练具身智能体、视觉语言推理研究以及长程任务规划等任务。

背景与挑战

背景概述

Embodied-Reasoner数据集由浙江大学和北京航空航天大学的研究团队于2025年发布，旨在推动具身智能体在复杂室内环境中的多模态推理能力。该数据集包含9,390条观察-思考-动作轨迹，涵盖了107种不同的室内场景和2,100个交互对象，主要用于训练和评估能够执行长期任务规划和视觉搜索的模型。其核心研究问题在于如何通过多模态数据（如图像和文本）的结合，提升智能体在真实环境中的决策能力和任务执行效率。该数据集的发布为具身智能、视觉语言推理和长期任务规划等领域的研究提供了重要的数据支持。

当前挑战

Embodied-Reasoner数据集在解决具身智能体的多模态推理问题时面临多重挑战。首先，数据集需要处理复杂的视觉和语言信息，如何在多模态数据之间建立有效的关联是一个关键问题。其次，长期任务规划要求模型具备强大的推理能力，能够从大量交互数据中提取有效信息并生成合理的决策序列。此外，数据集的构建过程也面临技术挑战，例如如何在高保真度的AI2-THOR环境中生成多样化的交互轨迹，并确保数据的质量和一致性。这些挑战不仅考验了数据集的构建技术，也为后续模型的研究和优化提供了重要的研究方向。

常用场景

经典使用场景

Embodied-Reasoner数据集在训练和评估多模态模型方面具有重要应用，特别是在室内环境中执行复杂任务的能力。该数据集通过提供丰富的第一人称视角交互图像和深度推理能力，支持模型进行情境分析、空间推理、反思和任务规划等多层次思考。这种多模态推理能力使得该数据集成为研究视觉-语言推理和长时任务规划的经典工具。

实际应用

在实际应用中，Embodied-Reasoner数据集被广泛用于训练具身AI代理，使其能够在真实环境中执行复杂任务。例如，在家庭服务机器人领域，该数据集可以帮助机器人进行物品搬运、空间导航和任务规划。此外，该数据集还可用于开发多轮交互系统，提升人机交互的自然性和效率。

衍生相关工作

Embodied-Reasoner数据集衍生了一系列经典研究工作，特别是在视觉-语言推理和具身智能领域。基于该数据集的研究成果包括多模态推理模型的优化、长时任务规划算法的改进以及视觉搜索任务的性能提升。这些工作不仅推动了具身智能技术的发展，还为相关领域的应用提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集