InSTA-150k

github2025-02-12 更新2025-02-13 收录

下载链接：

https://github.com/data-for-agents/task-generation

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于互联网规模训练代理的任务生成数据集，包含了150k个不同网站的任务。

A task generation dataset for training agents at internet scale, containing tasks from 150k different websites.

创建时间：

2025-02-12

原始信息汇总

InSTA-150k 数据集概述

数据集简介

InSTA-150k 是一个面向互联网规模训练智能体的任务生成数据集。该数据集通过自动化管道生成，旨在减少对人类标注的依赖。

数据集特点

使用大型语言模型（LLM）生成针对150,000个不同网站的任务。
通过LLM智能体完成任务并生成轨迹。
使用LLM评估轨迹的成功性。

数据集性能

语言模型在检测和过滤有害内容方面准确率达到97%。
生成可行任务的比率为89%。
评估成功轨迹的准确率为82.6%。

智能体表现

基于Llama 3.1 70B的智能体在150,000个网站中解决了16.7%的任务。

训练效果

在数据有限的环境中，与人类数据混合训练的智能体表现优于仅使用人类数据的训练，Step Accuracy提升最高可达+122.1%。
当在所有可用的人类数据上训练智能体时，智能体无法泛化到多样化的真实网站。加入InSTA-150k数据后，泛化能力分别提升+149.0%（WebLINX）和+156.3%（Mind2Web）。

数据集获取

数据集代码：data-for-agents.github.io
论文：arxiv.org/abs/2502.06776
数据集：huggingface.co/datasets/data-for-agents/insta-150k

发展规划

当前：已发布150,000个任务。
3天后：发布网页环境。
1周后：发布智能体动作轨迹。
2周后：使用Llama 3.3 70B进行第二轮数据收集。
4周后：发布多模态轨迹。

搜集汇总

数据集介绍

构建方式

InSTA-150k数据集的构建采取了一种无需繁琐人工标注的互联网规模训练方法。首先，通过大型语言模型（LLM）为15万个多样化的网站生成任务；其次，LLM代理完成这些任务并生成轨迹；最后，LLM评估这些轨迹的成功与否。此流程通过自动化手段，实现了数据集的大规模构建。

特点

InSTA-150k数据集的特点在于其规模宏大且多样性丰富，涵盖了互联网上的广泛网站。数据集利用语言模型自动生成任务和评估结果，不仅效率高，而且能够有效过滤有害内容。其生成任务的可行性高达89%，评估成功轨迹的准确性达到82.6%，显示出强大的数据集质量和实用性。

使用方法

使用InSTA-150k数据集时，研究者可以将其作为训练网络导航代理的资源。数据集提供了自动化生成的任务和代理行动的轨迹，有助于提高代理在数据有限环境下的步进准确性。结合人工数据，该数据集能够显著提升代理在多样化真实网站上的泛化能力。

背景与挑战

背景概述

InSTA-150k数据集是在机器学习领域，特别是在构建能够进行网络导航的智能体（agent）的研究背景下创建的。该数据集由Carnegie Mellon University的Machine Learning Department与Amazon合作开发，旨在通过无需繁琐的人工注释，实现智能体在互联网规模上的训练。InSTA-150k的构建理念源于对现有训练方法的改进，即通过大规模自动生成任务、执行任务并评估任务成功度，来提升智能体的学习效率和准确性。该数据集自推出以来，在智能体学习和自然语言处理领域产生了显著影响。

当前挑战

InSTA-150k数据集面临的挑战主要体现在两个方面：一是如何确保自动生成的任务具有可行性和多样性，同时避免有害内容的出现；二是如何提高智能体在训练过程中对任务的解决能力，特别是在数据有限的情况下。此外，构建过程中遇到的挑战还包括如何高效地利用语言模型进行任务生成和轨迹评估，以及如何使智能体在多样化的真实网站环境中具有更好的泛化能力。

常用场景

经典使用场景

InSTA-150k数据集为机器学习领域中的智能体训练提供了互联网规模的训练支持。该数据集的经典使用场景在于，通过利用大规模的网站数据和自动生成的任务，智能体能够在无需繁琐人工标注的情况下进行学习和优化，从而实现自主导航和任务完成的能力。

实际应用

实际应用中，InSTA-150k数据集可被用于训练智能体以执行网站上的复杂任务，例如自动化测试、内容审核和个性化推荐等。这些应用场景不仅减轻了人工操作负担，还提升了服务效率和用户体验。

衍生相关工作

基于InSTA-150k数据集的研究衍生出了多种相关工作，包括智能体训练算法的改进、多模态轨迹的分析以及大规模任务生成的优化等，进一步推动了智能体研究领域的发展和应用范围的拓展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集