ScribeAgent Dataset

github2024-12-06 更新2024-12-07 收录

下载链接：

https://github.com/colonylabs/ScribeAgent

下载链接

链接失效反馈

官方服务：

资源简介：

ScribeAgent数据集包含从Scribe收集的示例工作流和处理后的数据，用于微调LLMs以创建专门的Web代理。

The ScribeAgent dataset contains example workflows and processed data collected from Scribe, which is used for fine-tuning Large Language Models (LLMs) to create specialized Web Agents.

创建时间：

2024-11-19

原始信息汇总

ScribeAgent 数据集概述

数据集描述

ScribeAgent 数据集用于微调大型语言模型（LLMs）成为专门的网页代理。该数据集基于从 Scribe 收集的生产规模工作流数据。

数据预处理

数据预处理流程

观察空间：包括用户目标、当前网页的 URL 和 HTML-DOM，以及之前的操作。
预处理步骤：
- DOM 修剪和输入输出格式化。
- 数据转换流程图和详细信息参见 Data Transformation Flowchart 和论文的第 3.2.2 节。

文件结构

dataset.sh：用于顺序运行所有预处理文件以重新创建最终的训练和测试文件。
example_workflow.csv：展示如何将 Scribe 作为输入传递给预处理脚本。
preprocessing.py：执行 DOM 预处理和目标格式化。
naive.py：对 DOM 进行朴素截断以适应模型的上下文窗口。
filter.py：过滤空值和非英语 Scribe，并将数据集拆分为训练集和测试集。
circle_all.py：使用 OpenCV 创建带有圆圈目标的截图。
clickhere_augmentation.py：使用带圆圈的截图创建 action_id 到增强步骤描述的映射。
objective_augmentation.py：使用截图创建 workflow_id 到增强目标描述的映射。
adding_augmentations.py：添加目标和步骤描述的增强，并生成模型输入。
GPT_augmentation_file：包含用于增强步骤和目标描述的文件。
- train/test_objectives_clean.json：workflow_id 到增强目标的映射。
- train/test_step_desc.json：action_id 到增强步骤描述的映射。
data：存储所有数据。
- screenshot：存储截图 (action_id.jpeg)。
- circled_ss：存储带圆圈目标的截图 (action_id_circled.jpeg)。
- xy_position.csv：存储圆圈坐标。

运行方法

设置环境变量 HF_TOKEN 和 OPENAI_APIKEY，安装所需库，然后运行 dataset.sh。

数据集引用

如果该数据集对您的工作有帮助，请考虑引用以下论文：

@misc{scribeagent, title={ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data}, author={Junhong Shen and Atishay Jain and Zedian Xiao and Ishan Amlekar and Mouad Hadji and Aaron Podolny and Ameet Talwalkar}, year={2024}, eprint={2411.15004}, archivePrefix={arXiv}, primaryClass={cs.CL}, }

搜集汇总

数据集介绍

构建方式

在构建ScribeAgent数据集时，研究团队采用了从Scribe平台收集的生产规模工作流程数据。数据预处理阶段包括DOM修剪和输入输出格式化，通过一系列Python脚本实现，如`preprocessing.py`和`naive.py`，这些脚本负责处理HTML DOM以适应模型上下文窗口。此外，数据集还通过`filter.py`进行空值和非英语内容的过滤，并分割为训练集和测试集。增强步骤和目标描述的映射通过`clickhere_augmentation.py`和`objective_augmentation.py`实现，最终生成模型输入的提示。

特点

ScribeAgent数据集的显著特点在于其基于生产规模的工作流程数据，这些数据经过精细的预处理和增强，确保了数据的高质量和多样性。数据集不仅包含了用户目标、当前网页URL和HTML-DOM，还记录了先前的操作，这为训练专门化的网页代理模型提供了丰富的上下文信息。此外，数据集的构建过程中采用了GPT增强技术，进一步提升了数据的有效性和实用性。

使用方法

使用ScribeAgent数据集时，首先需设置环境变量`HF_TOKEN`和`OPENAI_APIKEY`，并安装所需的Python库。通过运行`dataset.sh`脚本，用户可以依次执行所有预处理步骤，生成最终的训练和测试文件。对于模型微调，用户可以使用`fine-tuning`文件夹中的脚本，通过LoRA技术对开源大型语言模型进行微调。此外，数据集还支持在Mind2Web和WebArena等公开基准上的评估，用户可根据提供的详细指南进行相应的设置和运行。

背景与挑战

背景概述

ScribeAgent数据集是由Junhong Shen等研究人员于2024年创建的，旨在通过大规模生产级工作流数据，将大型语言模型（LLMs）微调为专门的网络代理。该数据集的核心研究问题是如何利用公开的Scribes工作流数据来优化LLMs的性能，使其在处理网页任务时更加高效和准确。这一研究不仅推动了自然语言处理领域的发展，还为自动化网页操作提供了新的可能性，具有广泛的应用前景。

当前挑战

ScribeAgent数据集在构建过程中面临多项挑战。首先，数据预处理阶段需要处理大量的HTML DOM结构，确保其适应模型的上下文窗口，这涉及到复杂的DOM修剪和格式化。其次，数据集的构建需要处理非英语和空值数据，确保数据集的纯净性和可用性。此外，微调过程中需要高效地利用LoRA技术，以适应开源LLMs的特性，同时确保推理速度和精度。这些挑战不仅涉及技术层面的优化，还要求对数据处理和模型训练有深入的理解和实践经验。

常用场景

经典使用场景

ScribeAgent Dataset的经典使用场景在于其能够通过生产规模的流程数据，将大型语言模型（LLMs）微调为专门的网页代理。该数据集通过收集和处理来自Scribe的示例工作流程，提供了丰富的用户目标、网页URL和HTML-DOM信息，以及先前的操作记录。这些数据经过预处理后，用于训练和评估模型，使其能够在网页交互任务中表现出色。

解决学术问题

ScribeAgent Dataset解决了在网页代理领域中，如何利用大规模生产数据进行模型微调的学术问题。通过提供高质量的预处理数据和详细的流程信息，该数据集为研究者提供了一个标准化的基准，用于评估和改进网页代理的性能。这不仅推动了相关领域的技术进步，还为未来的研究提供了宝贵的资源。

衍生相关工作

基于ScribeAgent Dataset，研究者们已经开展了一系列相关工作，包括改进数据预处理技术、优化模型微调策略以及开发新的评估基准。例如，一些研究团队利用该数据集进行了多模态学习实验，探索如何结合图像和文本信息来提升网页代理的性能。此外，还有研究致力于开发更高效的模型压缩和加速技术，以适应实际应用中的资源限制。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集