WebDS

Hugging Face2025-05-23 更新2025-05-24 收录

下载链接：

https://huggingface.co/datasets/yamhm/WebDS

下载链接

链接失效反馈

官方服务：

资源简介：

WebDS是一个针对真实世界网络数据科学工作流的端到端基准，包含870个任务，跨越29个容器化的网站，涵盖10个领域，包括经济、健康、气候和科学研究。它用于评估代理在多跳网络导航、数据处理、工具使用和下游任务完成等方面的能力。

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

在数据科学领域自动化评估框架的构建中，WebDS通过系统化采集真实网络环境的工作流程构建数据集。该数据集整合了29个容器化网站资源，涵盖经济、健康、气候等10个专业领域，采用多层级任务设计方法，从数据获取到最终成果生成形成完整闭环。研究人员通过模拟真实数据科学工作场景，精心设计了870项具有明确意图标注的任务单元，每个任务均包含结构化元数据与执行路径规范。

特点

作为首个端到端网络数据科学基准测试集，WebDS展现出多维度评估特性。其任务设计融合了跨网站多跳导航、结构化与非结构化数据处理、Python脚本工具调用等复合能力要求。数据集特别强调现实场景还原度，包含从政府门户获取数据、跨平台数据集比对、可视化分析到最终生成可发布报告的全流程验证。通过容器化技术保障了实验环境的可复现性，支持自动评分与LLM评判双轨评估机制。

使用方法

研究人员可通过Docker容器技术快速部署实验环境，利用预构建的网站镜像复现完整测试场景。数据集提供标准化的JSON任务描述文件，明确标注任务意图与执行规范。用户可结合webds_experiments模块中的评估代码，对智能体进行多跳推理、工具使用等能力测试。支持通过云端演示环境进行初步验证，同时提供细粒度错误归因分析功能，便于深度优化智能体行为策略。

背景与挑战

背景概述

随着人工智能技术在数据科学领域的深入应用，WebDS数据集于2025年由斯坦福大学等研究机构联合发布，旨在构建首个端到端的网络化数据科学工作流评估基准。该数据集聚焦于多领域真实场景，涵盖经济学、健康、气候与科学研究等10个核心领域，通过29个容器化网站和870项任务，系统评估智能代理在数据获取、处理与分析中的综合能力。其创新性在于将传统数据科学流程与网络环境深度融合，推动了自动化数据科学工具的发展，并为多跳推理与工具使用研究提供了标准化平台。

当前挑战

WebDS数据集致力于解决网络化数据科学工作流中的复杂挑战，包括跨网站多跳导航、异构数据源整合及自动化工具调用等核心问题。构建过程中面临环境复现与任务设计的双重困难：一方面需通过容器化技术精确模拟29个独立网站的动态交互逻辑，确保评估环境的可重复性；另一方面需平衡任务多样性与其实际性，涵盖从政府门户数据提取到可视化报告生成的全流程，同时设计兼顾自动评分与开放式反馈的混合评估机制。

常用场景

经典使用场景

在数据科学自动化研究领域，WebDS作为首个端到端基准测试框架，其经典应用场景聚焦于评估智能代理在真实网络环境下的多模态任务执行能力。该数据集通过29个容器化网站模拟跨经济学、健康科学等10个领域的实际工作流，要求智能体完成从政府门户抓取数据到生成可视化报告的全流程操作，为验证复杂网络环境下的推理能力提供了标准化测试平台。

解决学术问题

该数据集有效解决了传统基准测试与现实应用脱节的核心问题，通过构建包含870个任务的异构环境，系统评估智能体在多跳网络导航、非结构化数据处理等关键环节的表现。其创新性在于将工具使用能力与下游任务完成度纳入量化体系，为衡量智能系统在开放网络环境中的实际效能提供了科学依据，推动了具身智能研究范式的演进。

衍生相关工作

基于WebDS的评估框架，衍生出多项具身智能领域的创新研究。相关团队通过扩展其容器化网站生态开发了增强型测试环境，在多模态推理模型优化、网络工具使用策略学习等方面取得突破。这些工作进一步丰富了端到端网络智能体的评估维度，为构建适应复杂网络交互的通用人工智能奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集