BASALT Evaluation and Demonstrations Dataset (BEDD)

Name: BASALT Evaluation and Demonstrations Dataset (BEDD)
Creator: 微软研究院
Published: 2023-12-05 08:29:44
License: 暂无描述

arXiv2023-12-05 更新2024-06-21 收录

下载链接：

https://github.com/minerllabs/basalt-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

BEDD是由微软研究院等机构创建的大型数据集，包含2600万条图像-动作对，来源于近14000个视频，展示了人类玩家在Minecraft中完成BASALT任务的过程。数据集旨在用于训练和评估解决模糊任务的算法，特别是在缺乏明确奖励信号的情况下。BEDD不仅支持算法开发，还通过包含超过3000次密集的人类评估，为新算法提供了一个初步的基准。数据集的应用领域包括强化学习、模仿学习和人类反馈学习，旨在提高AI在复杂环境中的适应性和性能。

BEDD is a large-scale dataset created by Microsoft Research and other institutions. It consists of 26 million image-action pairs sourced from nearly 14,000 videos, which showcase the process of human players completing BASALT tasks in Minecraft. This dataset is intended for training and evaluating algorithms that solve ambiguous tasks, particularly in scenarios where explicit reward signals are absent. Beyond supporting algorithm development, BEDD also provides a preliminary benchmark for novel algorithms by incorporating over 3,000 dense human evaluations. The dataset has applications in reinforcement learning, imitation learning, and human feedback learning, with the goal of enhancing AI adaptability and performance in complex environments.

提供机构：

微软研究院

创建时间：

2023-12-05

搜集汇总

数据集介绍

构建方式

在强化学习领域，面对难以通过传统奖励函数精确描述的模糊任务，BEDD数据集的构建采用了系统化的多模态数据采集策略。该数据集的核心由演示数据集和评估数据集两部分构成。演示数据集通过雇佣具备《我的世界》游戏经验的承包商，在受控环境中执行四项无奖励任务（寻找洞穴、建造瀑布、创建村庄动物围栏、建造村庄房屋），并利用定制化模组以20赫兹频率同步记录游戏画面（640x360 RGB帧）与对应的键盘鼠标操作，最终汇集了来自近1.4万段视频、总计361小时的2600万图像-动作对。评估数据集则源自NeurIPS 2022 BASALT竞赛，通过亚马逊众包平台（MTurk）招募了65名通过资格测试的评估者，对包括人类专家、竞赛优胜算法、行为克隆基线及随机代理在内的17种智能体生成的游戏视频进行密集两两比较，共收集了3049组包含总体评价、自然语言理由及多项具体任务完成度问题的评估数据，形成了包含27905个比较点的固定排行榜。

特点

BEDD数据集在面向人类反馈学习的基准研究中展现出若干鲜明特征。其演示数据集以高成功率（平均95%）和精细的动作标注著称，不仅提供了海量的原始像素观察序列，还完整捕获了模拟人类操作的低级键盘与鼠标输入，为从演示中学习策略提供了丰富素材。评估数据集的独特性在于其“密集”比较设计，超越了简单的胜负判定，每项评估均包含对智能体在任务特定维度（如是否找到洞穴、建筑风格匹配度）和通用维度（如人类相似性）上的细致评判，并附有评估者的自然语言理由，这为理解人类偏好和训练奖励模型提供了深层语义信息。此外，数据集配套发布了标准化的代码库，集成了从利用演示数据训练模型到对照固定排行榜进行评估的完整流程，确保了研究可复现性与算法公平比较。

使用方法

研究者可利用BEDD数据集系统推进从人类反馈中学习算法的开发与评估。对于算法开发，演示数据集可作为训练数据源，支持行为克隆、逆强化学习等方法的训练，或用于微调大型基础模型（如VPT）。配套代码库提供了基于模仿学习库的训练范例，指导研究者有效利用演示数据。在评估阶段，新开发的算法可在指定的测试环境种子下运行，生成任务完成视频。随后，研究者可将新算法视频与评估数据集中已有的17种智能体视频一同提交至提供的人机评估平台，通过众包方式收集人类评估者的对比反馈。最终，利用TrueSkill评级系统对新算法与固定排行榜上的现有智能体进行技能排名与不确定性估计，从而在无需从头进行全部昂贵人工评估的前提下，实现算法性能的客观量化与比较。数据集支持对评估结果的细粒度分析，有助于洞察算法在具体任务维度上的优势与不足。

背景与挑战

背景概述

BASALT评估与演示数据集（BEDD）于2023年由卡内基梅隆大学、微软研究院、巴斯大学、马里兰大学及OpenAI等机构的研究团队联合构建，旨在为模糊任务求解领域提供标准化的训练与评估资源。该数据集依托MineRL BASALT竞赛框架，聚焦于解决强化学习中难以通过显式奖励函数精确指定的复杂任务，如《我的世界》环境中的瀑布建造与拍摄、洞穴探索等。其核心研究问题在于推动从人类反馈中学习（LfHF）算法的发展，通过提供大规模人类演示视频与密集的人工评估数据，为智能体对齐人类意图的研究奠定实证基础，显著提升了该领域算法开发的可靠性与可复现性。

当前挑战

BEDD数据集致力于应对模糊任务求解的核心挑战，即如何在缺乏明确奖励信号的环境中，使智能体通过人类演示与偏好反馈来理解并完成符合人类期望的行为。构建过程中的主要挑战包括：其一，高质量演示数据的采集需协调大量熟练玩家，在保持任务完成一致性的同时处理视频编码差异与片段边界界定等技术难题；其二，评估环节依赖密集人工标注，需设计多维度、细粒度的比较指标（如任务完成度、人类相似性等），并建立稳健的统计评估体系（如TrueSkill评分）以量化算法性能，避免主观偏差。此外，数据集的规模与复杂性对存储、处理及算法训练的计算资源提出了较高要求。

常用场景

经典使用场景

在强化学习与人类反馈学习领域，BASALT评估与演示数据集（BEDD）为研究者提供了一个标准化的基准平台，专门用于训练和评估智能体在模糊任务中的表现。该数据集的核心应用场景聚焦于通过人类演示数据训练智能体，使其能够在缺乏明确奖励信号的复杂环境中完成开放式任务，例如在《我的世界》游戏中寻找洞穴或建造房屋。通过整合超过26百万个图像-动作对和数千个人类评估对比，BEDD使得算法开发能够基于真实的人类行为模式和偏好进行优化，从而推动智能体在模糊任务理解与执行方面的进步。

衍生相关工作

围绕BEDD数据集，已衍生出多项重要的研究工作，推动了人类反馈学习算法的发展。例如，在BASALT竞赛中脱颖而出的GoUp团队采用了结合人类先验知识分解任务与计算机视觉技术的方法；UniTeam团队则探索了在视频预训练模型潜在空间中进行行为克隆与搜索的策略。这些工作深化了对于如何利用演示数据提升智能体性能的理解。此外，该数据集也促进了与MineDojo等大规模游戏数据集的研究对比，突出了高质量标注演示与细粒度人类评估在训练可解释、可对齐智能体方面的独特价值。

数据集最近研究