ScribeAgent Dataset
收藏github2024-12-06 更新2024-12-07 收录
下载链接:
https://github.com/colonylabs/ScribeAgent
下载链接
链接失效反馈官方服务:
资源简介:
ScribeAgent数据集包含从Scribe收集的示例工作流和处理后的数据,用于微调LLMs以创建专门的Web代理。
The ScribeAgent dataset contains example workflows and processed data collected from Scribe, which is used for fine-tuning Large Language Models (LLMs) to create specialized Web Agents.
创建时间:
2024-11-19
原始信息汇总
ScribeAgent 数据集概述
数据集描述
ScribeAgent 数据集用于微调大型语言模型(LLMs)成为专门的网页代理。该数据集基于从 Scribe 收集的生产规模工作流数据。
数据预处理
数据预处理流程
- 观察空间:包括用户目标、当前网页的 URL 和 HTML-DOM,以及之前的操作。
- 预处理步骤:
- DOM 修剪和输入输出格式化。
- 数据转换流程图和详细信息参见 Data Transformation Flowchart 和论文的第 3.2.2 节。
文件结构
dataset.sh:用于顺序运行所有预处理文件以重新创建最终的训练和测试文件。example_workflow.csv:展示如何将 Scribe 作为输入传递给预处理脚本。preprocessing.py:执行 DOM 预处理和目标格式化。naive.py:对 DOM 进行朴素截断以适应模型的上下文窗口。filter.py:过滤空值和非英语 Scribe,并将数据集拆分为训练集和测试集。circle_all.py:使用 OpenCV 创建带有圆圈目标的截图。clickhere_augmentation.py:使用带圆圈的截图创建 action_id 到增强步骤描述的映射。objective_augmentation.py:使用截图创建 workflow_id 到增强目标描述的映射。adding_augmentations.py:添加目标和步骤描述的增强,并生成模型输入。GPT_augmentation_file:包含用于增强步骤和目标描述的文件。train/test_objectives_clean.json:workflow_id 到增强目标的映射。train/test_step_desc.json:action_id 到增强步骤描述的映射。
data:存储所有数据。screenshot:存储截图 (action_id.jpeg)。circled_ss:存储带圆圈目标的截图 (action_id_circled.jpeg)。xy_position.csv:存储圆圈坐标。
运行方法
设置环境变量 HF_TOKEN 和 OPENAI_APIKEY,安装所需库,然后运行 dataset.sh。
数据集引用
如果该数据集对您的工作有帮助,请考虑引用以下论文:
@misc{scribeagent, title={ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data}, author={Junhong Shen and Atishay Jain and Zedian Xiao and Ishan Amlekar and Mouad Hadji and Aaron Podolny and Ameet Talwalkar}, year={2024}, eprint={2411.15004}, archivePrefix={arXiv}, primaryClass={cs.CL}, }
搜集汇总
数据集介绍

构建方式
在构建ScribeAgent数据集时,研究团队采用了从Scribe平台收集的生产规模工作流程数据。数据预处理阶段包括DOM修剪和输入输出格式化,通过一系列Python脚本实现,如`preprocessing.py`和`naive.py`,这些脚本负责处理HTML DOM以适应模型上下文窗口。此外,数据集还通过`filter.py`进行空值和非英语内容的过滤,并分割为训练集和测试集。增强步骤和目标描述的映射通过`clickhere_augmentation.py`和`objective_augmentation.py`实现,最终生成模型输入的提示。
特点
ScribeAgent数据集的显著特点在于其基于生产规模的工作流程数据,这些数据经过精细的预处理和增强,确保了数据的高质量和多样性。数据集不仅包含了用户目标、当前网页URL和HTML-DOM,还记录了先前的操作,这为训练专门化的网页代理模型提供了丰富的上下文信息。此外,数据集的构建过程中采用了GPT增强技术,进一步提升了数据的有效性和实用性。
使用方法
使用ScribeAgent数据集时,首先需设置环境变量`HF_TOKEN`和`OPENAI_APIKEY`,并安装所需的Python库。通过运行`dataset.sh`脚本,用户可以依次执行所有预处理步骤,生成最终的训练和测试文件。对于模型微调,用户可以使用`fine-tuning`文件夹中的脚本,通过LoRA技术对开源大型语言模型进行微调。此外,数据集还支持在Mind2Web和WebArena等公开基准上的评估,用户可根据提供的详细指南进行相应的设置和运行。
背景与挑战
背景概述
ScribeAgent数据集是由Junhong Shen等研究人员于2024年创建的,旨在通过大规模生产级工作流数据,将大型语言模型(LLMs)微调为专门的网络代理。该数据集的核心研究问题是如何利用公开的Scribes工作流数据来优化LLMs的性能,使其在处理网页任务时更加高效和准确。这一研究不仅推动了自然语言处理领域的发展,还为自动化网页操作提供了新的可能性,具有广泛的应用前景。
当前挑战
ScribeAgent数据集在构建过程中面临多项挑战。首先,数据预处理阶段需要处理大量的HTML DOM结构,确保其适应模型的上下文窗口,这涉及到复杂的DOM修剪和格式化。其次,数据集的构建需要处理非英语和空值数据,确保数据集的纯净性和可用性。此外,微调过程中需要高效地利用LoRA技术,以适应开源LLMs的特性,同时确保推理速度和精度。这些挑战不仅涉及技术层面的优化,还要求对数据处理和模型训练有深入的理解和实践经验。
常用场景
经典使用场景
ScribeAgent Dataset的经典使用场景在于其能够通过生产规模的流程数据,将大型语言模型(LLMs)微调为专门的网页代理。该数据集通过收集和处理来自Scribe的示例工作流程,提供了丰富的用户目标、网页URL和HTML-DOM信息,以及先前的操作记录。这些数据经过预处理后,用于训练和评估模型,使其能够在网页交互任务中表现出色。
解决学术问题
ScribeAgent Dataset解决了在网页代理领域中,如何利用大规模生产数据进行模型微调的学术问题。通过提供高质量的预处理数据和详细的流程信息,该数据集为研究者提供了一个标准化的基准,用于评估和改进网页代理的性能。这不仅推动了相关领域的技术进步,还为未来的研究提供了宝贵的资源。
衍生相关工作
基于ScribeAgent Dataset,研究者们已经开展了一系列相关工作,包括改进数据预处理技术、优化模型微调策略以及开发新的评估基准。例如,一些研究团队利用该数据集进行了多模态学习实验,探索如何结合图像和文本信息来提升网页代理的性能。此外,还有研究致力于开发更高效的模型压缩和加速技术,以适应实际应用中的资源限制。
以上内容由遇见数据集搜集并总结生成



