ALFRED

arXiv2025-09-30 收录

下载链接：

https://github.com/askforalfred/alfred

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为ALFRED，旨在评估代理在常见家庭任务中的语言引导导航和交互能力。该数据集被划分为训练集（21,023条）、验证集（1,641条）和测试集（3,062条），并且还进一步细分为已知环境和未知环境。该数据集包含了8,055个专家演示和25,743条自然语言指令，以支持语言引导的导航和交互任务。

Named ALFRED, this dataset is designed to evaluate the language-guided navigation and interaction capabilities of agents in common household tasks. This dataset is split into a training set (21,023 instances), a validation set (1,641 instances), and a test set (3,062 instances), and is further subdivided into seen and unseen environments. It contains 8,055 expert demonstrations and 25,743 natural language instructions to support language-guided navigation and interaction tasks.

搜集汇总

数据集介绍

构建方式

在构建ALFRED数据集的过程中，研究团队采用了基于规划器生成的专家演示方法，以模拟真实家庭环境中的任务执行过程。该数据集依托AI2-THOR 2.0交互式视觉环境，在120个室内场景中，通过将任务参数编码为规划域定义语言规则，自动生成了8,055个专家演示轨迹，每个轨迹平均包含50个动作步骤。这些演示涵盖了导航、物体交互及状态变化等多种复杂操作，并辅以像素级交互掩码标注，以增强视觉定位的真实性。为确保数据质量，每个演示均经过确定性回放验证，并通过主动采样策略最大化任务参数的异质性，从而削弱模型对先验分布的依赖。

特点

ALFRED数据集的显著特点在于其任务的长时程性、组合性以及不可逆状态变化，这显著缩小了研究基准与现实应用之间的差距。数据集包含25,743条自然语言指令，每条指令均同时提供高层次目标描述与低层次步骤说明，覆盖了7种任务类型和84个物体类别。与现有视觉语言任务数据集相比，ALFRED在序列长度、动作空间和语言复杂性方面均更为突出，且要求智能体通过像素级掩码预测实现物体交互，而非简单的类别选择。此外，数据集严格划分了训练、验证与测试集，并进一步区分可见与未见场景，以全面评估模型的泛化能力。

使用方法

使用ALFRED数据集时，研究者需在AI2-THOR模拟器中部署智能体模型，以完成从自然语言指令到动作序列的映射任务。模型接收以自我为中心的视觉观察和语言指令作为输入，需依次预测导航与交互动作，并对交互动作生成像素级目标物体掩码。评估采用任务成功率和目标条件成功率双重指标，并引入路径加权评分以考量动作效率。为促进系统性研究，数据集提供了基线序列到序列模型及其变体，支持通过模仿学习进行训练，并允许在部分可观察环境下对长时程组合任务进行分层与模块化推理探索。

背景与挑战

背景概述

ALFRED（Action Learning From Realistic Environments and Directives）数据集由华盛顿大学、艾伦人工智能研究所等机构的研究团队于2020年共同创建，旨在推动具身智能与视觉语言理解领域的发展。该数据集聚焦于解决自然语言指令与第一人称视觉感知映射至序列动作的核心研究问题，通过模拟家庭日常任务场景，为机器人执行复杂、组合式操作提供基准测试。ALFRED涵盖了25,743条语言指令与8,055个专家演示，涉及120个室内场景与84类物体交互，显著提升了任务的序列长度、动作空间与语言复杂性，对推动真实世界人机交互研究产生了深远影响。

当前挑战

ALFRED数据集所解决的领域问题在于实现自然语言指令到具身动作序列的精准映射，其挑战主要体现在长时程任务规划、部分可观测环境下的状态跟踪以及非可逆动作的容错处理。构建过程中的挑战包括：在多样化室内场景中生成高质量专家演示时需克服物理模拟的复杂性；通过众包收集语言指令时需确保高低层级描述的一致性；以及设计像素级交互掩码以提升物体定位的逼真度，避免简单类别预测的局限性。

常用场景

经典使用场景

在具身智能与视觉语言导航领域，ALFRED数据集被广泛用于训练和评估模型在复杂家庭任务中的指令理解与执行能力。其经典使用场景涉及将自然语言指令映射到一系列视觉感知与动作序列，例如根据‘清洗杯子并放入咖啡机’这样的高层目标，模型需在模拟环境中完成导航、物体交互及状态跟踪等步骤。该数据集通过长序列、组合性任务以及不可逆状态变化，为研究提供了贴近真实世界应用的挑战性平台。

解决学术问题

ALFRED数据集主要解决了具身人工智能中符号接地问题的扩展，即将语言指令与动态视觉环境中的动作和行为相连接。它针对现有基准在长时程规划、部分可观测性以及物体交互复杂性方面的不足，提供了包含高层目标与低层步骤的多样化语言指令。通过引入像素级交互掩码预测和状态变化跟踪，该数据集推动了视觉语义理解、指代表达式接地及动作规划等核心学术问题的研究，缩小了仿真环境与真实机器人应用之间的差距。

衍生相关工作

ALFRED数据集催生了多类经典研究工作，尤其在分层规划、模块化推理及跨模态表示学习方面。例如，后续研究基于其长时程任务特性，提出了结合进度监控与子目标预测的增强序列模型；同时，针对物体交互掩码的预测需求，衍生出融合视觉分割与语言 grounding 的联合训练方法。这些工作不仅提升了在ALFRED上的任务成功率，也为视觉语言导航、机器人指令跟随等领域的算法创新提供了重要借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集