WebAggregatorQA

Name: WebAggregatorQA
Creator: 香港中文大学, 腾讯AI实验室
Published: 2025-10-16 16:37:42
License: 暂无描述

arXiv2025-10-16 更新2025-11-05 收录

下载链接：

https://hf-mirror.com/datasets/CognitiveKernel/WebAggregatorQA

下载链接

链接失效反馈

官方服务：

资源简介：

WebAggregatorQA是一个包含10K个样本的数据集，覆盖了50K个网站和11个领域。该数据集通过主动在线探索和自动聚合逻辑合成的方式构建，旨在训练能够从多样化来源进行信息检索和复杂聚合的深度研究网络代理。数据集的构建过程包括主动在线探索，其中代理通过探索真实网络来获取信息；然后使用收集的证据，代理通过从12种高级逻辑类型中选择、组合和细化操作来合成可验证的QA对。WebAggregatorQA数据集旨在解决深度研究网络代理的信息聚合能力问题。

提供机构：

香港中文大学, 腾讯AI实验室

创建时间：

2025-10-16

搜集汇总

数据集介绍

构建方式

在深度研究智能体领域，信息聚合能力的构建成为关键挑战。WebAggregatorQA采用“探索进化”范式构建，通过主动在线探索阶段，智能体从初始锚点URL出发，在真实网络环境中运用搜索、静态解析、动态交互等多样化工具收集信息。随后进入自动聚合逻辑合成阶段，基于12种高级逻辑类型演化出独特的聚合链，将探索获得的知识片段转化为可验证的问答对。整个流程通过严格的质量控制机制，包括问答对齐检查和多样性约束，确保数据质量与覆盖广度。

使用方法

作为训练网络智能体的重要资源，该数据集支持多种应用模式。研究者可通过监督微调方式，利用数据集中的6,184条轨迹数据训练基础模型，显著提升模型在GAIA-text等基准上的表现。在评估层面，其人工标注的测试集为衡量智能体信息聚合能力提供了严谨标准，即使先进商业模型在此基准上也仅能达到28%的准确率。实际部署时，智能体需要调用搜索、文件解析、动态交互等工具链，通过多轮推理步骤完成从信息检索到深度聚合的全流程，最终生成具有洞察力的结构化答案。

背景与挑战

背景概述

WebAggregatorQA数据集由香港中文大学与腾讯人工智能实验室于2025年联合研发，旨在解决深度网络研究智能体在信息聚合能力方面的关键瓶颈。该数据集通过创新的'探索与进化'范式构建，覆盖12个领域、5万余个真实网页，包含近万条经过质量验证的问答样本。其核心研究问题聚焦于提升智能体对多源异构信息的深度分析与综合推理能力，填补了现有网络智能体训练数据在复杂逻辑聚合方面的空白，为推进通用人工智能在开放网络环境中的认知能力奠定了重要基础。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，需解决网络智能体从多模态信息源中提取关键证据并进行跨域推理的复杂性，例如要求智能体同时处理动态网页交互、文件解析与统计计算等异构任务；在构建过程层面，需克服真实网络环境中数据质量控制的难题，包括确保问答对与参考来源的严格对齐、避免已有数据集污染，以及通过自动化质量检验机制维持聚合逻辑的多样性与稳定性。

常用场景

经典使用场景

在深度网络智能体研究领域，WebAggregatorQA数据集通过模拟真实网络环境中的多源信息整合过程，为训练智能体进行复杂知识聚合提供了标准化测试平台。该数据集覆盖12个领域和5万余个网页，要求智能体在动态网络环境中执行跨模态信息检索与逻辑推理，例如从财务报表中提取数据并计算统计指标，或结合图像内容与文本描述进行联合分析。这种设计有效模拟了人类研究者在开放网络环境中进行深度信息合成的典型工作流程。

解决学术问题

该数据集主要解决了网络智能体研究中信息聚合能力评估的缺失问题。传统基准如WebWalkerQA等过度侧重信息检索，而WebAggregatorQA通过定义元素操作、集合运算、科学分析与时序推理四类聚合逻辑，建立了对智能体深度分析能力的量化评估体系。其构建的探索-演化范式突破了静态知识图谱的局限，使模型能处理动态网络内容中的非结构化信息，为开发具备人类级研究能力的通用智能体提供了关键训练资源。

实际应用

在实际应用层面，基于WebAggregatorQA训练的智能体可部署于自动化研究助手、商业情报分析等场景。例如在金融领域，系统能自动采集多家机构的年报数据，通过标准差计算与相关性分析生成投资洞察；在医疗研究中，可整合学术论文与临床数据，进行趋势预测与统计建模。这些应用显著降低了专业领域研究中信息整合的时间成本，同时通过标准化聚合流程提升了分析结论的可靠性。

数据集最近研究