XLand-100B

Name: XLand-100B
Creator: AIRI 和 Tinkoff
Published: 2024-06-13 18:04:17
License: 暂无描述

arXiv2024-06-13 更新2024-06-21 收录

下载链接：

https://github.com/dunno-lab/xland-minigrid-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

XLand-100B是由AIRI和Tinkoff联合创建的大型多任务数据集，专为情境强化学习设计。该数据集包含近30,000个不同任务的完整学习历史，涵盖100亿次转换和25亿个情节，数据集大小为320GB。创建过程耗时50,000 GPU小时，远超多数学术实验室的能力。XLand-100B不仅支持广泛使用的情境学习强化学习方法，还提供了工具以复制或扩展数据集。此数据集旨在推动情境强化学习领域的研究，为构建通用智能体提供坚实基础，解决复杂任务多样性和难度的问题。

XLand-100B is a large-scale multi-task dataset jointly created by AIRI and Tinkoff, tailored for situated reinforcement learning. This dataset includes complete learning histories for nearly 30,000 distinct tasks, spanning 10 billion transitions and 2.5 billion episodes, with an overall size of 320 GB. The dataset construction consumed 50,000 GPU hours of computing resources, a scale far beyond the computational capacity of most academic laboratories. XLand-100B not only supports widely adopted situated reinforcement learning methods, but also provides tools for replicating and extending the dataset. This dataset aims to advance research in the field of situated reinforcement learning, establish a solid foundation for building general-purpose AI agents, and address the challenges associated with the diversity and difficulty of complex tasks.

提供机构：

AIRI 和 Tinkoff

创建时间：

2024-06-13

搜集汇总

数据集介绍

构建方式

在强化学习领域，构建大规模数据集对于推动情境强化学习的发展至关重要。XLand-100B数据集的构建采用了多阶段策略，首先在XLand-MiniGrid环境中进行多任务预训练，利用近端策略优化算法在数万个任务上并行收集数据。随后，通过单任务微调阶段记录完整的学习历史，涵盖探索与利用的完整轨迹。数据收集过程耗费了五万GPU小时，最终形成了包含近三万个独特任务、一千亿次状态转移和二十五亿个回合的大规模数据集。为确保数据质量，研究团队实施了严格的后处理流程，包括基于最终回报的过滤机制以及专家动作的重标注，以支持多样化的情境学习方法。

特点

XLand-100B数据集的核心特点在于其前所未有的规模与多样性。该数据集囊括了二万八千余个具有深度规则结构的任务，覆盖了从零到九层规则的不同难度层级，为情境强化学习提供了丰富的任务分布。数据集中每个任务均包含完整的学习历史，呈现了策略从初始探索到最终收敛的渐进改进模式，这种模式对于情境学习能力的涌现至关重要。此外，数据集通过高效的HDF5存储格式和智能压缩技术，将原始数据从近五TB压缩至三百余GB，显著提升了数据的可访问性和使用效率。与现有强化学习数据集相比，XLand-100B首次实现了在复杂任务分布上支持大规模情境学习研究的突破。

使用方法

XLand-100B数据集为情境强化学习研究提供了标准化的实验平台。研究人员可利用该数据集训练如算法蒸馏和决策预训练变换器等模型，通过自回归预测或基于上下文的最优动作推断来实现情境学习。数据集支持灵活的任务划分方式，用户可根据规则复杂度筛选任务，或按需组合不同任务的学习历史以平衡训练规模。实践应用中，建议首先使用较小的XLand-Trivial-20B数据集进行快速原型验证，再迁移至主数据集进行大规模实验。数据集提供的完整元数据（包括环境ID、规则集ID等）使得用户能够精确复现实验环境，并进行严格的泛化性能评估。

背景与挑战

背景概述

随着大规模语言和视觉模型中上下文学习范式的成功，新兴的上下文强化学习领域正经历快速发展。然而，该领域的发展因缺乏具有挑战性的基准而受阻，现有实验多在简单环境和小规模数据集上进行。XLand-100B数据集由AIRI与Tinkoff的研究团队于2024年发布，旨在缓解这一问题。该数据集基于XLand-MiniGrid环境构建，包含近3万个不同任务的完整学习历史，覆盖1000亿次状态转移和25亿个回合，数据收集耗时5万GPU小时。其核心研究问题是为上下文强化学习提供大规模、多样化的任务基准，推动通用智能体基础模型的发展，对强化学习与元学习领域产生深远影响。

当前挑战

XLand-100B致力于解决上下文强化学习中智能体仅通过推理时提供的示例学习新任务的挑战，其构建过程面临多重困难。在领域层面，现有强化学习数据集通常仅包含数百个任务，且缺乏策略改进历史，难以支撑上下文学习能力的涌现。构建过程中，需设计高效的数据收集流程，确保学习历史包含充分的探索与利用阶段，同时为决策预训练变压器等方法提供专家动作标签。此外，大规模数据收集需要克服计算资源限制，例如在复杂任务上训练数千个强化学习智能体耗时极长，且需处理任务难度分布不均、数据质量过滤等技术难题。

常用场景

经典使用场景

在强化学习领域，特别是在上下文强化学习这一新兴分支中，XLand-100B数据集为研究者提供了一个前所未有的基准平台。该数据集的核心应用场景在于训练和评估能够进行上下文学习的智能体模型，例如算法蒸馏和决策预训练变换器。通过提供近三万个不同任务的完整学习历史，包含1000亿次状态转移和25亿个回合，它使得模型能够在推理阶段仅依据上下文中的示例进行学习，而无需更新网络权重。这种范式对于开发能够快速适应新任务的通用智能体至关重要。

实际应用

XLand-100B数据集的实际价值体现在其作为研究基础设施的普惠性上。通过开源并提供经过高效压缩的庞大数据，它将原本需要数万GPU小时才能完成的数据收集工作成果民主化，使得广大学术机构能够触及前沿研究。在实际研发中，该数据集可用于预训练具有强大泛化能力的智能体，这些智能体有望应用于需要快速适应动态变化环境的场景，例如游戏AI、机器人任务规划以及复杂的模拟决策系统。其提供的学习历史数据格式也标准化了不同上下文强化学习方法的训练流程，促进了研究的可复现性与比较。

衍生相关工作

围绕XLand-100B数据集，一系列探索上下文强化学习边界的研究得以展开。该数据集直接支持并催生了对其自身基准性能的深入分析，例如评估算法蒸馏和决策预训练变换器等经典方法在不同任务复杂度下的表现。此外，它也为研究新的模型架构、更高效的数据利用策略以及上下文学习的内在机制提供了实验土壤。可以预见，基于此数据集的工作将深入探索如何提升模型对复杂规则集的理解能力、改进在部分可观测环境下的推理性能，并最终推动能够从丰富交互历史中提取通用策略的下一代智能体算法的诞生。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集