anon-paper-submission/agentick-oracle-trajectories-250k
收藏Hugging Face2026-05-02 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/anon-paper-submission/agentick-oracle-trajectories-250k
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
dataset_info:
features:
- name: task
dtype: string
- name: episode_id
dtype: int32
- name: difficulty
dtype: string
- name: step
dtype: int32
- name: ascii_render
dtype: string
- name: language_render
dtype: string
- name: action_name
dtype: string
- name: action_int
dtype: int32
- name: reward
dtype: float32
- name: done
dtype: bool
splits:
- name: train
num_bytes: 772180057
num_examples: 251076
- name: test
num_bytes: 769264948
num_examples: 252123
download_size: 98433174
dataset_size: 1541445005
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
## Croissant Metadata
Croissant 1.1 metadata (with the Responsible-AI extension required by the NeurIPS 2026 Datasets & Benchmarks track) is published alongside the code repository:
- Raw JSON: <https://raw.githubusercontent.com/anonymousps3/agentick-anon-submission/main/croissant/agentick-oracle-trajectories-250k.croissant.json>
- Browse on GitHub: <https://github.com/anonymousps3/agentick-anon-submission/blob/main/croissant/agentick-oracle-trajectories-250k.croissant.json>
All four official validator checks (JSON, schema, record generation, RAI metadata) pass; see <https://github.com/anonymousps3/agentick-anon-submission/blob/main/croissant/VALIDATION.txt>.
提供机构:
anon-paper-submission
搜集汇总
数据集介绍

构建方式
该数据集源自Agentick框架下智能体在多模态交互环境中的轨迹数据采集,通过Oracle策略生成高质量决策路径。数据集的构建基于环境模拟器对每步状态进行ASCII与语言双模态渲染,并记录任务描述、难度等级、动作编号及其对应的整数编码、即时奖励与终止信号。收集过程覆盖了25万余条训练样本与25万余条测试样本,形成结构化轨迹库。
特点
本数据集的核心特色在于其多维度标注的轨迹结构,每条数据不仅包含任务语义、难度分类和步骤序列,还提供了文本化的环境渲染与动作映射,有效支撑智能体行为理解与策略学习。数据样本规模达50万条,且训练与测试比例均衡,便于模型泛化能力的评估。同时,采用Croissant元数据格式并嵌入负责任AI扩展,确保数据集的合规性与可复现性。
使用方法
用户可通过HuggingFace Datasets库直接加载该数据集,利用默认配置自动解析train与test分片。数据以parquet格式存储,支持按任务ID或回合ID进行轨迹重组。推荐将异步渲染的文本状态与动作标签序列作为输入输出对,用于训练基于Transformer的决策模型,或结合奖励信号开展逆强化学习研究。此外,可借助Croissant元数据文件对数据集进行标准化验证与审计。
背景与挑战
背景概述
智能体决策与规划是人工智能研究的前沿领域,其核心挑战在于构建能够感知环境、执行动作并优化长期回报的自主代理。在此背景下,由匿名研究团队于近年开发的agentick-oracle-trajectories-250k数据集应运而生,旨在为基于稀疏奖励的智能体训练提供大规模、高质量的真实轨迹数据。该数据集包含超过25万条训练样本与25万条测试样本,涵盖多样化的任务难度等级,并提供了原始的ASCII渲染与语言描述两类环境表征,同时记录了完整的动作序列与奖励信号。通过开源MIT许可协议并附有Croissant元数据,该数据集为神经符号方法、离线强化学习及前向预测模型等方向的研究奠定了坚实的基准,有望推动智能体在复杂任务中实现稳定、可解释的决策能力提升。
当前挑战
当前智能体研究面临的首要挑战是稀疏奖励环境下高效探索与信用分配问题,agentick-oracle-trajectories-250k数据集通过提供专家级(oracle)轨迹,将复杂的长期任务分解为可监督的动作序列,从而降低了对探索策略的依赖。在数据构建层面,开发者需确保轨迹语义的一致性与动作空间的完备覆盖,特别是对困难任务,需生成不存在冗余或矛盾步骤的连续决策链。此外,如何将离散的ASCII渲染转化为有效的视觉或符号表示,同时保持语言描述与底层环境状态的精确对齐,构成了另一技术瓶颈。数据集的构建还涉及对轨迹来源的匿名化处理与可复现性保障,最终通过严格的Croissant验证确保元数据格式、记录生成及负责任AI属性的合规性。
常用场景
经典使用场景
在具身智能与交互式任务规划的研究版图中,agentick-oracle-trajectories-250k数据集扮演着基准测试与模型训练的双重基石角色。该数据集收录了超过25万条由专家级智能体在网格世界环境中执行各类任务时产生的完整轨迹,每条轨迹均包含细致的步骤分解、任务难度标注以及多模态观测渲染(包括ASCII符号与自然语言描述)。这一设计使其特别适用于训练和评估基于大语言模型的智能体在复杂、多步推理任务中的表现。通过将任务指令与行为轨迹对齐,研究者可以系统性地探讨模型在不同难度层级下对长期依赖关系的建模能力,以及在结构化环境中执行精确操作的策略学习范式。数据集提供的动作序列与对应的奖励反馈,为强化学习与模仿学习的交叉研究提供了丰富的训练素材。
实际应用
从实际应用的角度审视,agentick-oracle-trajectories-250k数据集的技术内涵对多个前沿领域具有深远的迁移价值。基于任务轨迹数据训练的智能体,其习得的动作规划与状态表征能力有望被直接迁移至操作系统自动化、软件测试脚本生成以及专有领域的数据处理流水线操作中。在智能客服与数字化转型场景中,借鉴该数据集所支撑的交互式任务完成逻辑,可以构建更加灵活的虚拟助手,使其能够根据用户模糊的自然语言指令执行一系列有序的界面操作或业务流程。此外,该数据集所采用的多模态渲染方式(兼具人类可读的自然语言与环境表征),为可解释智能体的设计提供了一条可行路径——即通过语言观测直接理解智能体的决策依据,从而增强人机协作中的信任度与透明性。
衍生相关工作
以agentick-oracle-trajectories-250k为支撑,近年来涌现出一系列富有影响力的衍生工作。围绕该数据集,研究者发展出了将大语言模型作为智能体核心控制器的新范式,探索了基于思维链(Chain-of-Thought)推理的轨迹生成与精炼方法。其中,代表性的工作如采用该轨迹数据微调大规模语言模型以提升其在未见任务上的决策准确率,以及利用轨迹中的奖励信号引导模型进行自我纠错和策略迭代。另一重要分支则关注于轨迹表征学习,尝试从海量专家示范中提取通用的运动原语与因果模式,进而实现跨任务的知识迁移。这些衍生研究不仅验证了数据集本身的高质量与可扩展性,更推动了符号规划与连续控制融合的研究边界,为下一代通用智能体架构的设计贡献了坚实的实验证据。
以上内容由遇见数据集搜集并总结生成



