WebAggregatorQA
收藏arXiv2025-10-16 更新2025-11-05 收录
下载链接:
https://hf-mirror.com/datasets/CognitiveKernel/WebAggregatorQA
下载链接
链接失效反馈官方服务:
资源简介:
WebAggregatorQA是一个包含10K个样本的数据集,覆盖了50K个网站和11个领域。该数据集通过主动在线探索和自动聚合逻辑合成的方式构建,旨在训练能够从多样化来源进行信息检索和复杂聚合的深度研究网络代理。数据集的构建过程包括主动在线探索,其中代理通过探索真实网络来获取信息;然后使用收集的证据,代理通过从12种高级逻辑类型中选择、组合和细化操作来合成可验证的QA对。WebAggregatorQA数据集旨在解决深度研究网络代理的信息聚合能力问题。
提供机构:
香港中文大学, 腾讯AI实验室
创建时间:
2025-10-16
搜集汇总
数据集介绍

构建方式
在深度研究智能体领域,信息聚合能力的构建成为关键挑战。WebAggregatorQA采用“探索进化”范式构建,通过主动在线探索阶段,智能体从初始锚点URL出发,在真实网络环境中运用搜索、静态解析、动态交互等多样化工具收集信息。随后进入自动聚合逻辑合成阶段,基于12种高级逻辑类型演化出独特的聚合链,将探索获得的知识片段转化为可验证的问答对。整个流程通过严格的质量控制机制,包括问答对齐检查和多样性约束,确保数据质量与覆盖广度。
使用方法
作为训练网络智能体的重要资源,该数据集支持多种应用模式。研究者可通过监督微调方式,利用数据集中的6,184条轨迹数据训练基础模型,显著提升模型在GAIA-text等基准上的表现。在评估层面,其人工标注的测试集为衡量智能体信息聚合能力提供了严谨标准,即使先进商业模型在此基准上也仅能达到28%的准确率。实际部署时,智能体需要调用搜索、文件解析、动态交互等工具链,通过多轮推理步骤完成从信息检索到深度聚合的全流程,最终生成具有洞察力的结构化答案。
背景与挑战
背景概述
WebAggregatorQA数据集由香港中文大学与腾讯人工智能实验室于2025年联合研发,旨在解决深度网络研究智能体在信息聚合能力方面的关键瓶颈。该数据集通过创新的'探索与进化'范式构建,覆盖12个领域、5万余个真实网页,包含近万条经过质量验证的问答样本。其核心研究问题聚焦于提升智能体对多源异构信息的深度分析与综合推理能力,填补了现有网络智能体训练数据在复杂逻辑聚合方面的空白,为推进通用人工智能在开放网络环境中的认知能力奠定了重要基础。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需解决网络智能体从多模态信息源中提取关键证据并进行跨域推理的复杂性,例如要求智能体同时处理动态网页交互、文件解析与统计计算等异构任务;在构建过程层面,需克服真实网络环境中数据质量控制的难题,包括确保问答对与参考来源的严格对齐、避免已有数据集污染,以及通过自动化质量检验机制维持聚合逻辑的多样性与稳定性。
常用场景
经典使用场景
在深度网络智能体研究领域,WebAggregatorQA数据集通过模拟真实网络环境中的多源信息整合过程,为训练智能体进行复杂知识聚合提供了标准化测试平台。该数据集覆盖12个领域和5万余个网页,要求智能体在动态网络环境中执行跨模态信息检索与逻辑推理,例如从财务报表中提取数据并计算统计指标,或结合图像内容与文本描述进行联合分析。这种设计有效模拟了人类研究者在开放网络环境中进行深度信息合成的典型工作流程。
解决学术问题
该数据集主要解决了网络智能体研究中信息聚合能力评估的缺失问题。传统基准如WebWalkerQA等过度侧重信息检索,而WebAggregatorQA通过定义元素操作、集合运算、科学分析与时序推理四类聚合逻辑,建立了对智能体深度分析能力的量化评估体系。其构建的探索-演化范式突破了静态知识图谱的局限,使模型能处理动态网络内容中的非结构化信息,为开发具备人类级研究能力的通用智能体提供了关键训练资源。
实际应用
在实际应用层面,基于WebAggregatorQA训练的智能体可部署于自动化研究助手、商业情报分析等场景。例如在金融领域,系统能自动采集多家机构的年报数据,通过标准差计算与相关性分析生成投资洞察;在医疗研究中,可整合学术论文与临床数据,进行趋势预测与统计建模。这些应用显著降低了专业领域研究中信息整合的时间成本,同时通过标准化聚合流程提升了分析结论的可靠性。
数据集最近研究
最新研究方向
在深度研究智能体领域,WebAggregatorQA数据集的推出标志着信息聚合能力成为前沿研究的关键焦点。该数据集通过“探索与进化”范式,构建了覆盖12个领域、包含多样化信息源和复杂聚合逻辑的10K样本,显著提升了智能体在真实网络环境中的多跳推理与知识合成能力。当前研究热点集中于如何突破现有基准的局限性,推动智能体从单纯的信息检索向深度分析转型,尤其在处理动态网页、多模态输入及科学计算等场景时,模型需融合统计关联、时序预测等高级聚合操作。这一进展不仅挑战了GPT-4.1、Claude-3.7等顶尖模型的性能边界,更揭示了信息聚合能力作为下一代网络智能体核心瓶颈的重要意义,为构建具备人类级研究能力的通用代理奠定了数据与评估基础。
相关研究论文
- 1通过香港中文大学, 腾讯AI实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



