VintixDatasetII

github2026-04-08 更新2026-04-10 收录

下载链接：

https://github.com/dunnolab/vintix-II

下载链接

链接失效反馈

官方服务：

资源简介：

Vintix II训练数据集在CC BY-SA 4.0许可下对所有人免费开放。数据集包含超过700M的跨域转换，涵盖209个训练任务，跨越10个领域。数据集由多个.h5文件组成，每个文件对应特定环境中的单个轨迹，包含观察序列、动作序列、奖励序列、步数序列和演示者动作序列。

The Vintix II training dataset is freely available to everyone under the CC BY-SA 4.0 license. This dataset contains over 700 million cross-domain transitions, covering 209 training tasks across 10 domains. The dataset consists of multiple .h5 files, where each file corresponds to a single trajectory in a specific environment, and contains observation sequences, action sequences, reward sequences, step count sequences, and demonstrator action sequences.

创建时间：

2026-03-25

原始信息汇总

Vintix II 数据集概述

数据集基本信息

数据集名称: Vintix II 训练数据集
相关模型: Vintix II: Decision Pre-Trained Transformer
数据集地址: https://huggingface.co/datasets/artfawl/VintixDatasetII
模型地址: https://huggingface.co/dunnolab/VintixII
论文地址: https://arxiv.org/abs/2604.05112
相关研究: https://arxiv.org/abs/2501.19400
许可协议: CC BY-SA 4.0 License

数据集内容与规模

数据规模: 包含超过 7 亿条转移数据。
任务范围: 涵盖 209 个训练任务。
领域覆盖: 横跨 10 个不同领域。
数据格式: 由多个 .h5 文件组成，每个文件对应特定环境中的单条轨迹。

数据结构

每个轨迹文件被划分为若干组（每组通常为 10,000 步，轨迹最后一组可能步数较少），每组包含以下键：

proprio_observation: 观测序列 (np.float32)
action: 在环境中采取的动作序列 (np.float32)
reward: 每个动作后获得的奖励序列 (np.float32)
step_num: 每个回合内的步数序列 (np.int32)
demonstrator_action: 当前观测对应的演示者动作序列 (np.float32)

获取方式

从 Hugging Face 下载: shell pip3 install huggingface_hub

python from huggingface_hub import snapshot_download snapshot_download(repo_id="artfawl/VintixDatasetII", repo_type="dataset", local_dir="/path/to/VintixDatasetII")
从公共 S3 存储桶下载: shell curl -L -o VintixII.zip https://tinyurl.com/VintixDataset2 unzip VintixII.zip

引用

如需引用本工作，请使用以下 BibTeX 条目： bibtex @article{polubarov2026vintixiidecisionpretrained, author={Andrei Polubarov and Lyubaykin Nikita and Alexander Derevyagin and Artyom Grishin and Igor Saprygin and Aleksandr Serkov and Mark Averchenko and Daniil Tikhonov and Maksim Zhdanov and Alexander Nikulin and Ilya Zisman and Albina Klepach and Alexey Zemtsov and Vladislav Kurenkov}, title={Vintix II: Decision Pre-Trained Transformer is a Scalable In-Context Reinforcement Learner}, journal={arXiv}, volume={2604.05112}, year={2026}, }

搜集汇总

数据集介绍

构建方式

在强化学习领域，数据集的构建方式直接影响模型的泛化能力。VintixDatasetII的构建过程体现了大规模跨领域数据采集的前沿理念，通过整合来自10个不同领域的209个训练任务，累计收集了超过7亿条状态转移轨迹。每条轨迹以HDF5格式存储，包含观测序列、动作序列、奖励信号、步数编号以及演示者动作等关键信息，并以每10,000步为一组进行结构化组织，确保了数据的高效访问与处理。

特点

该数据集的核心特点在于其跨领域的广泛覆盖与精细的结构设计。它不仅涵盖了机器人控制、游戏策略等多个异构领域，还通过统一的格式封装了多维度的交互信息，如浮点型观测值、动作向量及奖励信号。数据集采用分组存储机制，既支持大规模并行加载，又保留了轨迹的时序完整性，为训练具备上下文学习能力的决策变换器提供了丰富且一致的实验基础。

使用方法

使用VintixDatasetII进行模型训练时，研究者可通过Hugging Face平台或S3存储桶直接下载数据集文件。加载后，利用提供的训练脚本配置多GPU环境，指定数据目录与检查点保存路径即可启动分布式训练。对于推理阶段，用户需根据目标领域选择对应的Docker环境，并借助预训练模型接口实现智能体与环境的交互，通过重置上下文、获取动作等步骤完成跨任务评估，从而验证模型在未知任务上的适应性能。

背景与挑战

背景概述

在强化学习领域，跨领域泛化能力一直是核心研究难题，传统方法往往受限于单一任务或环境。VintixDatasetII由Dunno Lab等研究团队于2026年创建，旨在支持决策预训练变换器（DPT）模型的规模化上下文强化学习。该数据集整合了超过7亿条跨领域状态转移数据，涵盖10个不同领域的209项训练任务，为模型在未见任务上的高效适应提供了坚实基础。其设计不仅推动了大规模动作模型的发展，也为跨领域强化学习研究开辟了新路径，显著提升了智能体在复杂环境中的泛化性能。

当前挑战

VintixDatasetII致力于解决跨领域强化学习中智能体泛化能力不足的挑战，传统方法难以在多样任务间共享知识。数据构建过程中，团队面临多环境数据整合的复杂性，需统一不同领域的观测、动作与奖励格式，确保数据质量与一致性。此外，大规模轨迹数据的采集与存储涉及高效处理技术，以管理超过7亿条转移数据，同时保持数据结构的可扩展性，为后续模型训练提供可靠支持。

常用场景

经典使用场景

在强化学习与决策智能领域，VintixDatasetII作为一个大规模跨域轨迹数据集，其经典使用场景在于支持决策预训练Transformer模型进行上下文内强化学习。该数据集通过整合超过7亿条跨域状态转移数据，覆盖了10个不同领域的209项训练任务，为模型提供了丰富的环境交互经验。研究者能够利用这些轨迹数据，训练模型在未见任务中实现高效的策略泛化与快速适应，从而推动智能体在复杂动态环境中的自主决策能力发展。

实际应用

在实际应用层面，VintixDatasetII能够服务于机器人控制、自动驾驶、游戏智能体以及工业自动化等多个领域。例如，在机器人操作任务中，利用该数据集训练的模型可以快速适应不同的抓取或导航环境，减少实地调试时间。在自动驾驶仿真中，模型能够从多样化的驾驶场景中学习安全决策策略，提升系统的鲁棒性。这些应用不仅验证了数据集在跨域决策问题上的实用性，也为构建高效、自适应的智能系统提供了可靠的数据支撑。

衍生相关工作

基于VintixDatasetII，衍生出了一系列重要的研究工作，其中最具代表性的是决策预训练Transformer模型的扩展与优化。原始DPT模型通过该数据集实现了跨域环境下的规模化训练，证明了上下文学习在强化学习中的有效性。后续研究进一步探索了模型架构改进、多任务策略融合以及低资源适应等技术方向，这些工作共同推动了大规模决策模型的发展，并为构建更通用的人工智能决策系统提供了理论依据与实践经验。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集