anon-paper-submission/agentick-oracle-trajectories-120k
收藏Hugging Face2026-05-02 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/anon-paper-submission/agentick-oracle-trajectories-120k
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
dataset_info:
features:
- name: task
dtype: string
- name: episode_id
dtype: int32
- name: difficulty
dtype: string
- name: step
dtype: int32
- name: ascii_render
dtype: string
- name: language_render
dtype: string
- name: action_name
dtype: string
- name: action_int
dtype: int32
- name: reward
dtype: float32
- name: done
dtype: bool
splits:
- name: train
num_bytes: 372195268
num_examples: 120465
- name: test
num_bytes: 369188190
num_examples: 120430
download_size: 46321215
dataset_size: 741383458
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
## Croissant Metadata
Croissant 1.1 metadata (with the Responsible-AI extension required by the NeurIPS 2026 Datasets & Benchmarks track) is published alongside the code repository:
- Raw JSON: <https://raw.githubusercontent.com/anonymousps3/agentick-anon-submission/main/croissant/agentick-oracle-trajectories-120k.croissant.json>
- Browse on GitHub: <https://github.com/anonymousps3/agentick-anon-submission/blob/main/croissant/agentick-oracle-trajectories-120k.croissant.json>
All four official validator checks (JSON, schema, record generation, RAI metadata) pass; see <https://github.com/anonymousps3/agentick-anon-submission/blob/main/croissant/VALIDATION.txt>.
提供机构:
anon-paper-submission
搜集汇总
数据集介绍

构建方式
该数据集源自对Agentick环境中智能体轨迹的采集与整理,旨在为智能体行为建模与决策研究提供高质量的序列化数据。数据集共包含约12万条训练样本与12万条测试样本,每条轨迹均以episode_id为唯一标识,并按照任务(task)、难度(difficulty)与步骤(step)进行结构化组织。数据采集过程中,Oracle策略在每步环境交互后记录下ASCII渲染(ascii_render)、语言描述(language_render)、执行动作(action_name与action_int)、即时奖励(reward)以及完成标识(done),由此构建出完整、可复现的智能体行为序列。数据集以Parquet格式存储,并配备了符合NeurIPS 2026 Datasets & Benchmarks轨道要求的Croissant 1.1元数据,保障了数据的可发现性与可验证性。
特点
该数据集具有多层次、多模态的结构特征。每条轨迹同步提供了任务级标签(task)、难度分级(difficulty)以及细粒度的逐步交互记录,便于研究人员按任务类型或难度层次进行筛选与分析。同时,每条步骤同时包含ASCII符号渲染与自然语言描述两种环境表示方式,为跨模态表征学习与语言引导策略研究提供了天然支点。动作空间采用名称(action_name)与整数标识(action_int)双形式对齐,方便进行离散动作建模。奖励信号(reward)与完成标志(done)的连续记录使得动态奖励建模与终止状态判别得以支持。训练集与测试集规模均衡,便于执行标准监督学习或序列预测任务,且不包含噪声或人为标注干扰,保证了数据的高纯净度。
使用方法
该数据集可直接通过HuggingFace Datasets库加载,默认配置下支持train与test两个划分,文件路径通过glob模式'data/train-*'与'data/test-*'自动匹配。用户可基于task、difficulty字段进行条件筛选,或按episode_id进行轨迹级别的序列提取。每步字段如ascii_render、language_render、action_name、action_int、reward与done可作为序列预测、行为克隆、逆强化学习或隐式奖励学习任务中的输入输出对。建议在加载后按步骤对齐episode_id,重构完整轨迹序列,以便训练或评估基于时间变异的智能体模型。同时,Croissant元数据中内置的负责任AI扩展信息亦可用于评估数据集偏见与公平性。
背景与挑战
背景概述
该数据集名为agentick-oracle-trajectories-120k,创建于NeurIPS 2026数据集与基准测试轨道的提交背景下,由匿名研究团队开发,旨在为智能体决策轨迹建模提供大规模标准化资源。其核心研究问题聚焦于通过Oracle专家轨迹数据,推动强化学习与模仿学习在复杂环境中的性能提升。数据集涵盖12万条训练样本与12万条测试样本,每条轨迹包含任务描述、难度级别、动作序列及奖励信号,为评估智能体在多样化场景中的泛化能力奠定了坚实基础。作为Agentick项目的重要组成部分,该数据集填补了现有基准在细粒度轨迹标注方面的空白,对自主智能体系统的发展具有显著推动作用。
当前挑战
该数据集所解决的领域问题在于,现有基准多缺乏结构化的Oracle轨迹数据,导致智能体在长序列决策中难以有效学习专家策略,尤其在处理不同难度级别任务时表现不稳定。构建过程中遭遇的挑战包括:确保轨迹数据的多样性与代表性,需在有限资源下平衡任务复杂度的覆盖范围;动作空间与奖励函数的一致性设计,以避免分布偏移;以及数据规模与质量间的权衡,需在120k级别的样本中维持高保真度,同时避免过拟合于特定环境。这些挑战要求数据集在扩展性、泛化力与标注精度上实现协同优化。
常用场景
经典使用场景
在智能体决策与强化学习领域,agentick-oracle-trajectories-120k 数据集为研究者提供了一个大规模、结构化的专家轨迹库,涵盖12万条带标签的智能体行为序列。该数据集以任务、回合、难度等级为核心维度,同时记录每一步的ASCII渲染、语言渲染、动作编码与即时奖励,使其成为模仿学习、逆强化学习以及离线强化学习等经典范式中的基准资源。利用该轨迹数据,学者可训练智能体在复杂环境中复现专家策略,或通过对比学习剖析任务难度对决策路径的影响,从而推动从单步动作预测到长程规划能力的研究演进。
实际应用
在实际部署层面,agentick-oracle-trajectories-120k 展现出广泛的应用潜力。工业机器人领域可借助其中的动作序列数据训练机械臂在变化环境中的自主操作技能,例如通过专家轨迹引导机器人完成装配或抓取任务。在游戏AI与虚拟仿真方面,该数据集能够作为策略初始化工具,减少智能体在初始化阶段的无意义探索,从而快速适应新的关卡或游戏规则。此外,自然语言处理中的任务引导、自动驾驶中的行为克隆,以及医疗康复中的运动规划,皆可从该轨迹库中提取普适性的决策模式,实现从数据到应用的平滑迁移。
衍生相关工作
依托 agentick-oracle-trajectories-120k 的丰富信息结构,研究者已衍生出若干标志性工作。在行为克隆与生成式模型交叉领域,有学者利用数据的语言渲染特征,构建了多模态智能体轨迹描述模型,使得策略学习可同时融合视觉与文本线索。此外,基于奖励信号的时间序列分析,衍生出基于Transformer的离线轨迹优化框架,能够从历史步骤中动态推断最优动作序列。更有工作将该数据集与在线交互数据结合,提出了混合式学习范式,在保留专家知识的同时引入探索机制,显著提升了策略的鲁棒性与适应力。这些进展不仅验证了数据集的基础价值,也拓宽了其作为跨任务研究跳板的可能性。
以上内容由遇见数据集搜集并总结生成



