DRAMA-benchmarks-eval

Hugging Face2026-04-28 更新2026-04-29 收录

下载链接：

https://huggingface.co/datasets/ssubhnil/DRAMA-benchmarks-eval

下载链接

链接失效反馈

官方服务：

资源简介：

DRAMA-benchmarks-eval数据集是一个与训练检查点仓库配套的数据集，用于存储四种上下文感知世界模型方法的OOD评估输出（包括CSV文件、原始每集回报和图表）。这些方法包括TrajD、DRAMA、DALI-S和cRSSM-S，分别在PyTorch + Mamba2和JAX + DreamerV3框架下实现。数据集包含一个主结果CSV文件，每行代表一个(row_id, condition_id)对，详细记录了方法、领域、环境、实验设置、种子、评估轴、平均回报等关键信息。数据集还提供了原始回报JSON文件和图表，用于生成论文中的结果。适用任务包括强化学习、世界模型和OOD泛化研究。数据集最后更新于2026年4月28日，包含940行CSV数据和585个原始JSON文件。

The DRAMA-benchmarks-eval dataset is a companion dataset to the training checkpoints repository, storing OOD evaluation outputs (including CSV files, raw per-episode returns, and plots) for four context-aware world model approaches. These approaches include TrajD, DRAMA, DALI-S, and cRSSM-S, implemented in PyTorch + Mamba2 and JAX + DreamerV3 frameworks respectively. The dataset contains a main results CSV file where each row represents a (row_id, condition_id) pair, detailing key information such as method, domain, environment, experimental setup, seed, evaluation axis, and average return. It also provides raw return JSON files and plots for generating results in the paper. Suitable tasks include reinforcement learning, world models, and OOD generalization research. The dataset was last updated on April 28, 2026, containing 940 rows of CSV data and 585 raw JSON files.

创建时间：

2026-04-24

原始信息汇总

DRAMA Benchmarks — 评估结果数据集

数据集概述

该数据集是 NeurIPS 主论文基准测试中，四种上下文感知世界模型方法的分布外（OOD）评估结果的配套数据集。它存储了 CSV 格式的汇总结果、每个回合的原始回报数据以及可视化图表。

数据集来源与关联

模型检查点仓库：ssubhnil/cwm（HuggingFace 模型仓库）
源代码仓库：SSubhnil/CausalWorldModel（包含 benchmark/ 和 docs/ 目录下的协议、分割表和运行脚本）

比较的方法

方法	框架	源代码仓库
TrajD（本文方法）	PyTorch + Mamba2	SSubhnil/CausalWorldModel
DRAMA（本文方法，无 steer）	PyTorch + Mamba2	同上，设置 `Steer: False`
DALI-S	JAX + DreamerV3	SSubhnil/DALI
cRSSM-S	JAX + DreamerV3	dreaming_of_many_worlds，`benchmark` 分支

仓库结构

DRAMA-benchmarks-eval/ ├── README.md # 本文件 ├── main_results.csv # 单一数据源——每行对应一个 (row_id, condition_id) 对 ├── manifest.yaml # benchmark/eval_manifest.yaml 的快照 ├── eval_conditions.yaml # benchmark/eval_conditions.yaml 的快照 ├── raw/ # 每个 (row_id, condition_id) 的原始回报 JSON │ └── <row_id>__<condition_id>.json # 键：raw_returns, git_sha, row metadata └── figures/ └── paper_neurips/ ├── atari_alien_ood.pdf # 分组柱状图（方法 × 条件） ├── atari_alien_ood.tex # booktabs 结果表格（可直接 LaTeX input） ├── atari_alien_ood.csv # 宽格式聚合数据（每个单元格的 mean ± std） └── atari_alien_conditions.tex # 协议说明（模式/难度分割）

CSV 模式（`main_results.csv`）

每行对应一个 (row_id, condition_id) 对。主要字段：

列名	含义
`row_id`	每个检查点的唯一键（例如 `trajd_alien_K8_s1`，`dali_alien_s1`）
`condition_id`	评估条件（例如 `mode_ood`）
`method`	方法名称：`trajd`
`domain`	领域：`atari`
`env`	环境名称（例如 `ALE/Alien-v5`）
`experiment`	训练预设（例如 `alien_K_ablation_base`，`bench_dr_alien`）
`seed`	训练种子
`axis`	干扰轴：`mode_diff`（Atari），`physics` / `reward` / `timing`（DMC），`levels`（Procgen）
`n_episodes`	通常为 100
`mean_return` / `std_return`	聚合后的平均回报和标准差
`reward_mse_*`	仅在 `reward` 轴上填充（DMC 混合）
`raw_returns_path`	指向 `raw/` 中每个回合 JSON 的相对路径
`training_wandb_run_id`	产生该检查点的 WandB 运行 ID
`eval_wandb_run_id`	记录该评估的 WandB 运行 ID
`eval_timestamp_utc` / `git_sha`	可重现性元数据

数据获取方法

命令行下载

bash pip install huggingface_hub huggingface-cli login huggingface-cli download ssubhnil/DRAMA-benchmarks-eval --repo-type dataset --local-dir ./eval_pull

Python 加载

python from huggingface_hub import snapshot_download import pandas as pd

snapshot_download(repo_id="ssubhnil/DRAMA-benchmarks-eval", repo_type="dataset", local_dir="./eval_pull")

df = pd.read_csv("./eval_pull/main_results.csv") print(df.groupby(["method","env","condition_id"])["mean_return"].agg(["mean","std","count"]))

数据与模型来源

检查点来源

TrajD K=5：trajd_main/atari_alien/K5_s{1..3}/ckpt（sweep rhnyvacz）
TrajD K=8：trajd_main/atari_alien/K8_s{1..3}/ckpt（sweep rhnyvacz）
DRAMA：drama/atari_alien/seed{1..5}（sweep Drama_latent）

文档参考

训练日志 / sweep 追踪：CausalWorldModel 仓库中的 docs/ablations.md
每次评估运行日志：docs/eval_results.md
Atari OOD 分割定义：docs/atari_env_splits.md

更新信息

最后更新：2026-04-28 13:17 UTC，git SHA c8f4906
当前版本内容：940 行 CSV 数据，585 个原始 JSON 文件

搜集汇总

数据集介绍

构建方式

DRAMA-benchmarks-eval数据集旨在系统评估四种上下文感知世界模型在分布外泛化场景下的性能，涵盖TrajD、DRAMA、DALI-S与cRSSM-S等代表性方法。其构建基于统一的评估协议，通过manifest.yaml与eval_conditions.yaml文件精确定义评估条件与实验配置，并采用结构化的CSV文件main_results.csv作为核心数据载体，每一行对应唯一的(row_id, condition_id)组合，详细记录了方法类型、领域、环境、种子、评估轴、回合数及聚合后的回报均值与标准差等关键指标。同时，原始逐回合回报数据以JSON格式存储于raw/目录，而论文级图表与LaTeX表格则置于figures/paper_neurips/下，从而形成从原始数据到可发表结果的完整数据链路。

特点

该数据集具备高度结构化与可复现性两大显著特征。其主CSV文件不仅存储了聚合指标，还嵌入了训练与评估的WandB运行标识符、Git提交哈希、时间戳等元数据，便于追溯每一实验的具体来源与演变。对于在DMC领域涉及reward轴混合环境的结果，数据集额外提供了reward_mse_*列以刻画细粒度预测误差。此外，原始JSON文件保留了每个评估条件的完整回报序列与行级元数据，为研究者进行二次分析、置信区间计算或异质性检验提供了基础。数据集还附带了与NeurIPS论文一致的图表与表格，确保公开数据与发表结果之间的严格对应关系。

使用方法

研究者可通过Hugging Face Hub便捷获取该数据集。使用huggingface-cli tool或Python的snapshot_download函数即可将完整数据集拉取至本地。加载main_results.csv后，利用pandas等工具可快速按方法、环境与条件分组聚合回报均值，进行方法间比较。若需复现论文中的特定图表，可在CausalWorldModel项目环境下运行专用脚本，例如atari_alien_ood_report.py，该脚本以数据集CSV为唯⼀输入，输出分组柱状图与LaTeX表格。对于希望扩展评估范围的研究者，数据集提供了完善的扩展机制：通过填充预定义的JAX存根函数，并在eval_manifest.yaml中注册新行，即可将DALI或cRSSM等方法的评估结果追加至现有CSV，并通过push_eval_to_hf.py脚本将增量数据推回Hub，实现社区协作下的渐进式基准完善。

背景与挑战

背景概述

在深度强化学习领域，世界模型（World Model）的泛化能力一直是核心研究挑战，尤其在面对分布外（OOD）场景时，模型需从高维观测中提取因果结构并实现鲁棒决策。DRAMA-benchmarks-eval数据集由SSubhnil团队于2025-2026年间创建，旨在系统评估四种上下文感知世界模型方法在Atari、DM Control与Procgen环境中的OOD泛化性能。该数据集涵盖了TrajD（基于PyTorch与Mamba2）、DRAMA、DALI-S及cRSSM-S等方法的基准测试结果，为NeurIPS主会议论文提供标准化评价协议。通过记录940行CSV评估数据及585个原始回合回报JSON文件，该数据集为世界模型的可泛化性研究提供了可复现的定量基准，显著推动了强化学习中因果表征学习与分布外适应性评估的规范化进程。

当前挑战

该数据集面临的核心挑战源于两类问题。其一，领域问题挑战：现有世界模型在OOD条件下常因缺乏因果解耦能力而失效，例如Atari游戏中的模式切换（mode_diff）、DMC环境下的物理参数变化及Procgen的关卡多样性，均要求模型泛化至训练分布外的场景。其二，构建过程挑战：需统一跨框架（PyTorch vs. JAX）、跨环境（Atari/DMC/Procgen）的评估协议，包括回合数标准化、原始JSON与CSV的原子化追加写入（通过fcntl文件锁实现），以及多方法（TrajD K=5/K=8、DRAMA、DALI、cRSSM）在分布式服务器（LSF集群）上的并行评估结果合并，以确保数据完整性与可复现性。

常用场景

经典使用场景

在深度强化学习领域，世界模型常在分布外泛化任务中面临严峻挑战，而DRAMA-benchmarks-eval数据集正是为此场景而生。该数据集专注于评估上下文感知世界模型在Atari游戏、DeepMind Control套件和Procgen环境中的泛化性能，通过精心设计的条件变量（如模式切换、物理参数偏移、奖励函数改变和时间扰动）系统性地衡量模型在未见过的环境状态下的适应能力。经典使用中，研究者以CSV文件中的平均回报作为核心指标，对比TrajD、DRAMA、DALI-S和cRSSM-S四种前沿方法，从而定量揭示各模型在不同分布偏移维度上的鲁棒性差异。

衍生相关工作

围绕DRAMA-benchmarks-eval数据集，衍生出一系列推动世界模型前沿发展的经典工作。基于其评估协议，研究者提出了TrajD方法，通过Mamba2架构与因果状态空间建模显著提升长程轨迹预测精度；DRAMA作为无引导变体，展示了纯环境驱动表征在无干预条件下的性能基线。与此同时，DALI-S和cRSSM-S的基准实验促使社区重新审视DreamerV3框架在分布外场景下的局限性，进而催生了融合注意力机制与更精细的潜在变量正则化的改进版本。该数据集还启发了对状态空间模型与Transformer在时序决策任务中可扩展性的系统对比研究，以及针对高维视觉输入的因果结构学习范式的探索，为构建真正具备跨环境迁移能力的通用智能体奠定了实证基础。

数据集最近研究