insta-150k

github2025-03-05 更新2025-02-26 收录

下载链接：

https://github.com/data-for-agents/insta

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过一个管道生成的，该管道使用大型语言模型（LLM）为150,000个不同的网站生成任务，并由LLM代理完成任务并生成轨迹。最后，LLM评估轨迹的成功率。该数据集用于训练网络导航代理，并且在数据有限的情况下，与人类演示数据相比，能够显著提高代理的性能。

This dataset is generated via a pipeline wherein Large Language Models (LLMs) first generate tasks for 150,000 distinct websites. Subsequently, LLM agents complete these tasks and generate task execution trajectories. Finally, LLMs evaluate the success rate of these trajectories. This dataset is designed for training web navigation agents, and under limited-data scenarios, it can significantly improve the performance of agents compared with human demonstration data.

创建时间：

2025-02-12

原始信息汇总

InSTA 数据集概述

数据集基本信息

名称: InSTA (Internet-Scale Training For Agents)
开发者: Brandon Trabucco (1), Gunnar Sigurdsson (2), Robinson Piramuthu (2), Ruslan Salakhutdinov (1)
- (1) Carnegie Mellon University, Machine Learning Department
- (2) Amazon
论文地址: https://arxiv.org/abs/2502.06776
数据集地址: https://huggingface.co/datasets/data-for-agents/insta-150k
官网: https://data-for-agents.github.io

数据集描述

目的: 为网络导航代理提供互联网规模的训练数据，无需人工标注
规模: 覆盖150k个多样化网站
特点:
- 使用LLM生成任务、完成任务并生成轨迹
- LLM审核轨迹并判断其成功性
- 语言模型在检测有害内容、生成可行任务和判断成功轨迹方面表现良好

数据集性能

模型性能:
- 有害内容检测准确率: 97%
- 可行任务生成率: 89%
- 成功轨迹判断准确率: 82.6%
- Llama 3.1 70B模型任务解决率: 16.7%

数据集应用

训练效果:
- 在Mind2Web和WebLINX数据集上，Step Accuracy提升分别达+89.5%和+122.1%
- 在WebLINX和Mind2Web上，泛化能力提升分别达+149.0%和+156.3%

快速开始指南

环境准备: bash docker pull brandontrabucco/insta-browser-environment docker run -p 7860:7860 -p 3000-3007:3000-3007 -t brandontrabucco/insta-browser-environment &
代码安装: bash git clone https://github.com/data-for-agents/insta cd insta && pip install -e .
启动vLLM服务: bash export MODEL_NAME="meta-llama/Llama-3.3-70B-Instruct" bash start_vllm_server.sh

示例代码

python from insta import ( InstaPipeline, create_demo_videos )

dataset = [ {"domain": "duckduckgo.com", "task": "retrieve a news article on US politics"}, ]

pipeline = InstaPipeline() pipeline.launch(dataset=dataset)

create_demo_videos( task_is_feasible_threshold=0.0, success_threshold=0.0, on_right_track_threshold=0.0, )

Gym环境与工具

Gym环境: python from insta import InstaEnv, BrowserAgent env = InstaEnv() agent = BrowserAgent()
工具:
- InstaTransformersGradioTool: 用于远程使用
- InstaTransformersTool: 用于本地环境

引用

bibtex @misc{Trabucco2025InSTA, title={InSTA: Towards Internet-Scale Training For Agents}, author={Brandon Trabucco and Gunnar Sigurdsson and Robinson Piramuthu and Ruslan Salakhutdinov}, year={2025}, eprint={2502.06776}, archivePrefix={arXiv}, primaryClass={cs.LG}, }

搜集汇总

数据集介绍

构建方式

InSTA数据集的构建采取了一种创新的无须人工标注的大规模互联网训练方法。首先，通过大型语言模型生成针对15万个不同网站的任务。随后，这些任务由LLM代理完成，并生成轨迹。最后，使用另一个LLM评估这些轨迹的成功率。这种方法有效地利用了语言模型的能力，以自动化的方式生成和评估任务，显著提高了数据集构建的效率。

使用方法

使用InSTA数据集进行训练时，用户可以通过官方提供的Gym环境和LLM工具轻松加载和操作。用户首先需要通过pip安装insta包，然后可以使用提供的工具，如InstaTransformersGradioTool，来与网页进行交互。此外，数据集还支持在本地通过docker容器服务环境，为研究者提供了灵活的使用方式。

背景与挑战

背景概述

InSTA数据集，由Carnegie Mellon University的Machine Learning Department与Amazon共同研发，旨在解决传统网络导航智能体训练中依赖人工数据标注的低效率问题。该数据集的创建时间是2023年，主要研究人员包括Brandon Trabucco、Gunnar Sigurdsson、Robinson Piramuthu和Ruslan Salakhutdinov。InSTA的核心研究问题是如何实现在无需人工标注的情况下，对智能体进行互联网规模训练。该数据集利用大型语言模型生成任务，完成任务的轨迹，并对轨迹的成功与否进行评估。InSTA对相关领域的影响力体现在，其提出的训练方法在某些数据有限的设置中，能够显著提高智能体的步进准确度，并改善智能体对不同真实站点的泛化能力。

当前挑战

InSTA数据集面临的挑战主要包括：1) 如何确保生成的任务既能覆盖广泛的网站，又能避免包含有害内容；2) 如何提高语言模型评估任务轨迹成功与否的准确性；3) 如何在数据有限的情况下，提高智能体的泛化能力，使其能够更好地适应不同的网站环境。构建过程中遇到的挑战还包括，如何高效地从互联网上收集多样化的网站数据，并自动生成相应的任务和轨迹。

常用场景

经典使用场景

InSTA数据集之经典使用场景，在于其能够支持大规模网络导航代理的训练，无需依赖繁琐的人工标注。该数据集首先利用大型语言模型生成任务，随后代理完成这些任务并生成轨迹，最后再通过语言模型评估轨迹的成功率。这一流程使得代理能够在没有人工干预的情况下，完成对互联网规模网站的探索和任务执行。

解决学术问题

InSTA数据集解决了学术研究中关于代理训练数据效率低下的问题。通过自动化任务生成和成功轨迹的评估，该数据集极大地提高了数据标注的效率，并减少了对于人工资源的依赖。此外，它在数据有限的环境下，通过结合来自该管道和人工数据的数据混合，显著提高了代理的步进准确性，从而解决了代理泛化能力不足的问题。

实际应用

在实际应用中，InSTA数据集可被用于训练能够在互联网规模上自主导航的智能代理。这些代理能够执行诸如网页内容搜索、表单填写等复杂任务，并能够适应多样化的网站结构，从而在电子商务、在线服务自动化等领域具有广泛的应用前景。

数据集最近研究