Agent-Eval-Refine/Agent-Trajectories

Name: Agent-Eval-Refine/Agent-Trajectories
Creator: Agent-Eval-Refine
Published: 2024-04-12 22:26:52
License: 暂无描述

Hugging Face2024-04-12 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/Agent-Eval-Refine/Agent-Trajectories

下载链接

链接失效反馈

官方服务：

资源简介：

`trajectories.zip`包含了论文中评估的所有轨迹数据，包括WebArena、Android和iOS平台上的不同基线模型和人类演示的轨迹。`ios-offline-trajectories.zip`包含了CogAgent在iOS模拟器上的轨迹数据，用于通过Filtered BC优化CogAgent模型。`webarena-reflexion-<evaluator-type>.zip`包含了WebArena上的轨迹数据，用于通过模型评估器优化GPT-4 CoT基线模型。

提供机构：

Agent-Eval-Refine

原始信息汇总

数据集概述

主要数据集文件

trajectories.zip
- WebArena
  - GPT-4 CoT baseline agent
- Android
  - Auto-UI base/large
  - CogAgent
  - Human demonstrations from Android-in-the-Wild
- iOS
  - CogAgent baseline
  - CogAgent + Self-training
  - CogAgent + Filtered BC
ios-offline-trajectories.zip
- Contains CogAgents trajectories on iOS emulator, used for refining the CogAgent model through Filtered BC.
webarena-reflexion-<evaluator-type>.zip
- Refines the GPT-4 CoT baseline with various evaluators:
  - GPT-4V
  - Captioner + GPT-4
  - Captioner + Mixtral
  - Oracle Evaluator

数据集用途

The trajectories are used for evaluating and refining various AI models, particularly focusing on CogAgent and GPT-4 CoT baseline.

搜集汇总

数据集介绍

构建方式

在智能体评估与优化领域，Agent-Trajectories数据集通过系统化采集多平台智能体交互轨迹构建而成。该数据集整合了WebArena环境中的GPT-4思维链基线轨迹、Android平台的Auto-UI与CogAgent模型轨迹及真实人类演示数据，以及iOS环境中CogAgent及其优化变体的轨迹记录。构建过程中特别包含了基于模型评估器的反射式优化轨迹，例如通过GPT-4V、图文生成模型与大型语言模型组合评估产生的迭代数据，形成了覆盖模拟环境与真实场景的立体化轨迹集合。

特点

该数据集的核心特点在于其跨平台与多模态的轨迹完整性，囊括了从基础模型到增强策略的多样化智能体行为记录。轨迹数据不仅包含标准基线表现，还集成了人类示范、自训练与过滤行为克隆等高级优化方法产生的交互序列。特别值得关注的是，数据集提供了基于不同评估器类型的反射式优化轨迹对比，如视觉理解模型与纯文本模型的评估差异，为研究智能体在复杂环境中的适应性改进提供了丰富的比较维度。

使用方法

研究者可利用该数据集进行智能体行为分析与策略优化研究，通过解压轨迹文件直接访问结构化交互记录。对于模型训练，可提取iOS模拟器轨迹用于过滤行为克隆等强化学习方法；评估研究则可对比不同评估器生成的反射优化轨迹，分析其对于任务完成度的影响。数据集支持跨环境性能对比，例如对比Android与iOS平台上相同模型的泛化能力，或分析人类演示与自动智能体轨迹的行为差异，为构建更鲁棒的智能体系统提供实证基础。

背景与挑战

背景概述

在人工智能领域，智能体轨迹数据集作为评估和优化智能体行为的关键资源，近年来受到广泛关注。Agent-Eval-Refine/Agent-Trajectories数据集由相关研究团队于近期构建，旨在系统收集多平台智能体交互轨迹，涵盖WebArena、Android和iOS等环境。该数据集的核心研究问题聚焦于通过轨迹分析提升智能体的泛化能力和任务执行效率，为强化学习、模仿学习及人机交互研究提供了实证基础，推动了自主智能体在复杂场景中的适应性发展。

当前挑战

该数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，智能体轨迹评估需解决跨平台行为一致性、任务多样性以及真实世界交互的复杂性，这要求轨迹数据能精准反映智能体在动态环境中的决策过程；其二，在构建过程中，数据采集涉及多源异构轨迹的整合，如人类演示与模型生成轨迹的融合，以及轨迹质量评估标准的统一，这些技术难点增加了数据集的构建难度和可靠性保障。

常用场景

经典使用场景

在智能体与强化学习领域，Agent-Eval-Refine/Agent-Trajectories数据集为评估和优化自主智能体的行为轨迹提供了关键资源。该数据集整合了WebArena、Android和iOS等多个平台上的智能体交互轨迹，包括基线模型如GPT-4 CoT、CogAgent以及人类示范数据。研究者通过分析这些轨迹，能够深入理解智能体在复杂环境中的决策过程，从而设计更有效的评估框架，推动智能体在模拟与现实任务中的性能提升。

解决学术问题

该数据集直接应对了智能体研究中轨迹评估与优化的核心挑战。通过提供多源轨迹数据，它支持研究者探索基于模型的评估方法，如使用GPT-4V或Captioner+GPT-4等评估器进行反思式优化，解决了传统评估中缺乏标准化基准的问题。这不仅促进了智能体泛化能力和鲁棒性的理论进展，还为自动化策略改进提供了实证基础，对推动人机交互与自主系统的学术研究具有深远意义。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。例如，基于WebArena轨迹的反射优化实验，利用模型评估器如GPT-4V或Mixtral来改进GPT-4 CoT基线智能体，展示了轨迹数据在策略迭代中的价值。此外，CogAgent在iOS模拟器上的轨迹被用于过滤行为克隆，推动了自训练与模型精炼方法的发展，这些工作共同丰富了智能体学习与评估的学术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集