RealtimeGym

Name: RealtimeGym
Creator: Social And Language Technology Lab
Published: 2025-11-05 09:49:49
License: 暂无描述

Hugging Face2025-11-05 更新2025-11-06 收录

下载链接：

https://huggingface.co/datasets/SALT-NLP/RealtimeGym

下载链接

链接失效反馈

官方服务：

资源简介：

实时推理数据集包含在动态环境中的代理实时推理跟踪。该数据集与实时推理项目页面和演示相伴，提供了三种环境（Freeway、Snake和Overcooked）下，不同认知负载和时间压力预算，跨越多个种子和代理范式的单个运行步骤的代理状态、动作、得分和可选的推理内容。

提供机构：

Social And Language Technology Lab

创建时间：

2025-11-05

原始信息汇总

Real-Time Reasoning 数据集概述

数据集基本信息

数据集名称: Real-Time Reasoning
语言: 英语
任务类别: 问答、其他
任务ID: 对话生成、任务规划
许可证: MIT

数据集内容

该数据集包含在动态环境中智能体的实时推理轨迹，提供逐步的智能体状态、动作、分数和（可选的）"思考"内容。

环境类型

Freeway
Snake
Overcooked

实验条件

认知负荷: easy、medium、hard
时间压力预算: 4k、8k、16k、32k
随机种子: seed0至seed7
智能体范式: reactive、planning、agile

文件格式

文件命名格式: {game}{load}{budget}{seed}{agent}.json
示例: freeway_easy_4k_seed0_planning.json
文件结构: JSON列表，每个文件包含单次运行的步骤序列

数据结构

每个步骤包含以下字段：

step: 整数步骤索引
score: 当前分数
action: 当前步骤采取的动作
thinking: 模型/智能体"推理"文本（可选）
state: 当前环境状态对象
original_state: 供智能体推理的原始输入状态文本

数据集划分

无预定义的训练/验证/测试划分，用户可按以下维度自行划分：

游戏类型
认知负荷
时间压力
随机种子
智能体范式

使用任务

逐步推理分析
跨认知负荷/时间压力的智能体行为评估
反应式vs规划式vs敏捷思考者的比较研究
可视化和重放

引用信息

bibtex @article{wen2024realtime, title={Real-Time Reasoning Agents in Evolving Environments}, author={Wen, Yule and Ye, Yixin and Zhang, Yanzhe and Yang, Diyi and Zhu, Hao}, journal={International Conference on Learning Representations}, year={2025}, url={https://bleaves.github.io/real-time-reasoning/} }

搜集汇总

数据集介绍

构建方式

在智能体实时决策研究领域，RealtimeGym数据集通过结构化实验框架系统采集多维度交互轨迹。该数据集在Freeway、Snake和Overcooked三类动态环境中，分别设置认知负荷（轻松/中等/困难）与时间压力预算（4k至32k）参数组合，采用八组随机种子与三种智能体范式（反应式/规划式/敏捷式）生成完整决策序列。每个实验单元以JSON格式记录步进式状态-动作对，其中状态字段根据游戏引擎特性动态适配，部分实验单元额外包含智能体的自然语言推理过程。

使用方法

针对该数据集的异构特性，建议采用直接JSON解析方案以保持环境状态的结构完整性。研究者可通过HuggingFace Hub接口精准下载目标实验单元，或批量获取全量数据开展对比研究。典型应用场景包括：基于步进序列的决策树重构、多维度约束下的智能体效能评估、以及不同范式智能体的行为模式对比。由于未预设标准数据划分，用户可根据研究需求按游戏类型、认知负荷等级或智能体范式等维度自主构建评估集。

背景与挑战

背景概述

实时推理数据集RealtimeGym由斯坦福大学SALT-NLP实验室于2024年构建，聚焦于动态环境中智能体的实时决策机制研究。该数据集通过记录Freeway、Snake和Overcooked三类游戏环境中智能体的状态轨迹、动作序列与推理过程，系统化探索认知负载与时间压力对决策质量的影响。其设计融合了反应式、规划式与敏捷式三类智能体范式，为认知科学与强化学习领域提供了首个支持多维度实时决策分析的基准平台。

当前挑战

在动态环境建模领域，传统方法难以捕捉时间约束下的推理链退化现象。RealtimeGym通过异构游戏环境构建，需解决三个核心挑战：跨游戏状态空间的结构对齐问题，认知负载从理论指标到实验参数的映射难题，以及毫秒级决策过程中推理轨迹的完整记录技术。数据集构建时面临多智能体范式在相同环境下的行为可比性验证，以及非均匀时间压力下决策质量评估框架的设计复杂性。

常用场景

经典使用场景

在实时智能体研究领域，RealtimeGym数据集通过记录Freeway、Snake和Overcooked三类动态环境中的智能体状态轨迹，为分析实时推理机制提供了标准实验平台。该数据集系统采集了不同认知负荷与时间压力下智能体的动作序列、思维过程及环境状态，成为评估反应式、规划式和敏捷型智能体范式性能的核心基准。研究者可借助其精细的步进式数据，深入探索智能体在时间约束下的决策模式演变规律。

解决学术问题

该数据集有效解决了动态环境中智能体实时推理能力评估的量化难题。通过标准化记录智能体在认知负荷（简单/中等/困难）与时间预算（4k-32k）双重变量下的行为轨迹，为构建智能体适应性理论模型提供了实证基础。其多维度的状态-动作-思维关联数据，显著推进了时间敏感决策、资源受限推理等关键学术问题的研究进程，为构建更鲁棒的实时人工智能系统奠定数据基石。

实际应用

在自动驾驶、工业机器人等实时决策系统中，RealtimeGym的推理轨迹数据可直接用于优化任务规划算法。例如通过分析Overcooked环境中智能体的协作策略，可改进多智能体系统的应急响应机制；而Snake游戏的决策序列则能为路径规划算法提供时间约束下的优化样本。这些实际场景的验证数据，显著加速了从理论模型到工程应用的转化过程。

数据集最近研究