WebExplorer-QA
收藏arXiv2025-09-08 更新2025-11-24 收录
下载链接:
https://hf-mirror.com/datasets/hkust-nlp/WebExplorer-QA
下载链接
链接失效反馈资源简介:
WebExplorer-QA是一个通过模型探索和迭代的长到短查询进化方法生成的数据集,旨在训练长范围网络代理。该数据集创建过程包括利用LLM进行信息空间的探索和通过迭代进化减少显著信息来创建挑战性的查询-答案对。数据集主要用于解决网络浏览能力在信息检索方面的挑战,支持128K上下文长度和最多100次工具调用,能够在长范围问题解决上实现最先进的性能。
提供机构:
香港科技大学, MiniMax, 滑铁卢大学
创建时间:
2025-09-08
AI搜集汇总
数据集介绍

构建方式
在大型语言模型向智能体应用转型的背景下,WebExplorer-QA数据集通过模型驱动的探索与迭代式查询演化方法构建。该方法从维基百科选取种子实体,利用强大语言模型模拟内部图构建过程,通过多轮搜索与浏览动作自主探索信息空间,生成初始查询-答案对。随后采用长到短的逆向演化策略,系统性地移除显性线索并引入战略性模糊描述,经过五轮迭代生成约四万条高质量数据,有效提升了查询的复杂性与推理需求。
特点
该数据集的核心特征在于其挑战性与多样性。演化后的查询显著降低了显性信息密度,要求智能体进行平均近十轮工具调用的多步探索,在BrowseComp-en等基准测试中将顶级专有模型的准确率从86.6%压缩至67.1%。数据覆盖跨领域知识结构,既包含需要深度推理的复杂信息检索任务,又通过战略性模糊化处理模拟真实场景中的信息不完整性。其独特的长到短演化机制避免了传统方法中不自然的复杂度堆砌,形成了更符合人类认知习惯的挑战性查询分布。
使用方法
该数据集适用于分阶段训练范式,首先通过监督微调建立基础工具调用与多步推理能力,利用数据集中标注完整的轨迹示例学习搜索、浏览动作的规范执行。随后进入强化学习阶段,直接使用演化后的查询对进行探索式训练,采用GRPO算法结合格式奖励与答案准确度奖励,逐步将上下文长度扩展至128K令牌并支持百轮工具调用。训练过程中可观察到工具调用次数与轨迹长度的持续增长,最终使模型在保持结构规范性的同时,发展出应对长视野信息检索任务的深度推理能力。
背景与挑战
背景概述
WebExplorer-QA数据集由香港科技大学与MiniMax等机构于2025年联合推出,旨在解决大语言模型在复杂信息检索任务中的能力瓶颈。该数据集聚焦于长视野网络代理训练,通过模型驱动的探索与迭代式查询演化方法,构建了涵盖多步推理与复杂网络导航需求的问答对。其创新性体现在将信息空间构建与查询难度提升相结合,为开发具备超人类性能的网络代理提供了关键训练资源,显著推动了自主信息检索领域的发展。
当前挑战
该数据集致力于解决复杂信息检索任务的挑战,其核心在于生成需要长序列推理与多工具调用的问答对。构建过程中面临双重挑战:在领域问题层面,需模拟人类在模糊线索下的探索性搜索行为,避免传统方法中存在的明确入口点依赖;在数据构建层面,需克服初始查询信息过载问题,通过系统性信息隐晦化与替代描述策略,平衡查询难度与自然语言表达之间的冲突。
常用场景
经典使用场景
在大型语言模型向智能体应用转型的背景下,WebExplorer-QA数据集通过模型驱动的探索与迭代式查询演化机制,构建了需要多步推理和复杂网页导航的高难度问答对。该数据集最经典的应用场景是作为训练长视野网络智能体的核心数据源,支持模型在128K上下文长度内执行多达100次工具调用,显著提升了智能体在BrowseComp、WebWalkerQA等复杂信息检索基准上的表现。
解决学术问题
该数据集有效解决了开放源代码网络智能体面临的训练数据稀缺性难题。传统方法依赖人工标注或简单查询合成,难以匹配现代评测基准的复杂度要求。WebExplorer-QA通过自主合成的大规模挑战性问答对,突破了训练数据质量瓶颈,使8B参数模型在多个信息检索基准上超越72B规模模型,为开发超级人类水平的网络智能体提供了关键数据支撑。
衍生相关工作
该数据集的创新方法论催生了系列重要研究进展。其模型驱动探索机制启发了无需显式图谱构建的自主信息空间探索范式,而长到短的查询演化策略则突破了传统短到长演化的局限性。相关技术已被应用于WebSailor、WebThinker等后续智能体系统的改进,推动了整个领域对训练数据合成范式的重新思考,为构建更强大的网络导航智能体奠定了理论基础。
以上内容由AI搜集并总结生成



