agent-eto/eto-sft-trajectory

Name: agent-eto/eto-sft-trajectory
Creator: agent-eto
Published: 2024-04-09 07:35:29
License: 暂无描述

Hugging Face2024-04-09 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/agent-eto/eto-sft-trajectory

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了三个代理环境（WebShop、ScienceWorld和ALFWorld）的专家轨迹。WebShop的轨迹来源于官方提供的人类演示，并使用GPT-4在环境中探索并选择奖励大于0.7的轨迹。ScienceWorld的轨迹由环境提供的启发式算法生成。ALFWorld的轨迹则由作者提供的一些人类注释轨迹用于模仿学习。由于原始轨迹不包含每个动作步骤的思维链（CoT）信息，因此使用GPT-4生成了相应的推理过程。

提供机构：

agent-eto

原始信息汇总

数据集概述

数据集配置

默认配置：包含三个数据文件路径，分别对应不同的数据集分割：
- WebShop：路径为 data/webshop_*
- ScienceWorld：路径为 data/sciworld_*
- Alfworld：路径为 data/alfworld_*

数据集信息

特征：
- id：数据类型为字符串
- conversations：列表类型，包含对话元素，每个元素具有以下特征：
  - from：数据类型为字符串
  - value：数据类型为字符串
分割：
- WebShop：包含1823个示例
- ScienceWorld：包含1482个示例
- Alfworld：包含3118个示例

语言

英语 (en)

数据集名称与许可证

名称：ETO-SFT-Trajectory
许可证：Apache-2.0

数据集大小

范围：1K<n<10K

数据集内容

WebShop：使用GPT-4探索环境并选择奖励大于0.7的轨迹
ScienceWorld：使用环境提供的启发式算法生成黄金轨迹
Alfworld：提供少量人类注释的轨迹用于模仿学习

数据格式

示例： json [ { "id": "example_0", "conversations": [ { "from": "human", "value": "Who are you?" }, { "from": "gpt", "value": "I am Vicuna, a language model trained by researchers from Large Model Systems Organization (LMSYS)." }, { "from": "human", "value": "Have a nice day!" }, { "from": "gpt", "value": "You too!" } ] } ]

搜集汇总

数据集介绍

构建方式

本研究团队以人类学习的“试错”过程为灵感，构建了ETO（Exploration-based Trajectory Optimization）框架。该数据集通过在WebShop、ScienceWorld和ALFWorld三个环境中，采用GPT-4进行探索并选择奖励大于0.7的轨迹，对官方提供的人类演示进行预处理，并结合GPT-4生成每个动作步骤的对应理由，以形成包含失败和成功轨迹的数据集。

特点

ETO数据集的特点在于其不仅包含了成功轨迹，还特别强调了从失败轨迹中学习。它包含了三个环境的专家轨迹，分别为WebShop、ScienceWorld和ALFWorld，这些轨迹通过GPT-4生成的对应理由，为模型提供了丰富的上下文信息。此外，数据集应用了DPO损失来进行基于失败-成功轨迹对的策略学习，并支持迭代策略学习以进一步优化。

使用方法

使用ETO数据集训练代理时，用户需遵循特定的数据格式，其中包括轨迹ID以及对话列表，对话列表由对话来源和内容组成。用户可通过访问GitHub Repo获取详细的设置和评估指南，从而在训练过程中有效地集成和使用这些数据。

背景与挑战

背景概述

在人工智能领域，模拟人类学习过程的探索式学习框架备受关注。ETO（Exploration-based Trajectory Optimization）数据集，由Yifan Song等研究人员于2024年提出，旨在通过模拟人类试错学习过程，提升大型语言模型代理的学习效率。该数据集的核心研究问题是探索如何通过失败轨迹与成功轨迹的对比学习，优化代理的策略。其研究成果对强化学习领域产生了显著影响，特别是在语言模型代理的应用上。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：如何准确收集并利用失败轨迹进行学习，以及如何设计有效的对比轨迹优化算法。在应用领域问题上，ETO数据集面临的挑战是如何在三个不同的代理环境中——WebShop、ScienceWorld和ALFWorld——有效地提升代理的决策效率，并解决从未见过的场景问题。此外，数据集的构建还需考虑如何生成包含连贯思维过程（CoT）信息的轨迹，以便于代理更好地学习。

常用场景

经典使用场景

在人工智能领域，特别是在强化学习中，ETO-SFT-Trajectory数据集的运用尤为关键。该数据集通过提供专家轨迹，使得语言模型能够通过模仿学习来优化其策略。经典的使用场景包括在WebShop、ScienceWorld和ALFWorld三个环境中，模型通过学习成功与失败的轨迹对比，不断迭代改进其策略，以实现任务的高效完成。

衍生相关工作

基于ETO-SFT-Trajectory数据集的研究已经衍生出一系列相关工作，如对比轨迹优化、失败驱动学习等。这些研究进一步拓展了强化学习的理论和实践边界，为构建更智能、适应性更强的学习系统提供了新的视角和方法。

数据集最近研究