web-bench

Hugging Face2026-02-09 更新2026-02-10 收录

下载链接：

https://huggingface.co/datasets/OpenResearcher/web-bench

下载链接

链接失效反馈

官方服务：

资源简介：

Web-Bench是一个统一格式的深度研究基准数据集集合，旨在评估OpenResearcher-30B-A3B模型的性能。数据集包含多个子集：HLE（Humanity's Last Exam）、GAIA-text（文本版GAIA）、WebWalkerQA、XBench DeepSearch、SealQA和BrowseComp，共计5,209个问答对（4,318个独特问题）。这些数据集涵盖了多种语言（英文和中文）和任务类型，包括多项选择题、网页导航问题和需要多步推理的复杂问题。数据集采用统一的JSON格式，包含query_id、question和answer三个字段。部分子集还提供了包含参考URL的变体版本。数据集适用于问答系统、网页搜索和推理能力评估等任务。

创建时间：

2026-01-31

原始信息汇总

Web-Bench 数据集概述

数据集基本信息

数据集名称: Web-Bench
发布者: OpenResearcher
语言: 英语 (en)、中文 (zh)
标签: web-search, question-answering, benchmark, evaluation
许可协议: Apache-2.0
任务类别: 问答 (question-answering)
数据规模: 1K<n<10K
下载大小: 2,419,193 字节
数据集大小: 3,445,476 字节

数据集构成与统计

Web-Bench 是一个统一格式的深度研究基准测试集合，包含 5,209 个问答对（4,318 个唯一问题），涵盖 8 个不同的数据分片。

数据集/分片名称	记录数量	语言	是否包含URL	说明
HLE (`hle`)	2,158	英语	❌	来自“人类最后考试”的多项选择题
GAIA-text (`gaia_text`)	103	英语	❌	纯文本版 GAIA 基准测试（开发集）
WebWalkerQA (`webwalkerqa`)	680	英语	❌	网页导航问题（测试集）
WebWalkerQA-ref (`webwalkerqa_ref`)	680	英语	✅	包含参考 URL 的 WebWalkerQA
XBench (`xbench`)	100	中文	❌	DeepSearch 基准测试（已加密）
SealQA (`seal`)	111	英语	❌	SealQA 中最难的问题（seal_0 分片）
SealQA-ref (`seal_ref`)	111	英语	✅	包含参考 URL 的 SealQA
BrowseComp (`browsecomp`)	1,266	英语	❌	OpenAI 浏览智能体基准测试（已加密）

统一数据格式

所有数据集均采用相同的 JSON 结构： json { "query_id": 0, // 整数：唯一标识符 "question": "...", // 字符串：问题文本 "answer": "..." // 字符串：答案文本 }

对于 -ref 变体，URL 被嵌入在问题文本中。

各数据集详情

1. HLE (Humanitys Last Exam)

分片: hle
记录数: 2,158
语言: 英语
描述: 涵盖人文、科学、数学等多个领域的多项选择题，旨在测试处于人类知识前沿的高级推理能力。
处理: 将原始字段 query 重命名为 question，gt (ground truth) 重命名为 answer，id 转换为 query_id。
相关链接:
- 论文: https://arxiv.org/abs/2501.14249
- 数据集: https://huggingface.co/datasets/cais/hle

2. GAIA-text (Text-only GAIA)

分片: gaia_text
记录数: 103
语言: 英语
描述: GAIA 基准测试的纯文本版本（开发集），问题需要多步推理和网络搜索来回答现实世界查询。
处理: 使用开发集，将 Question 重命名为 question，task_id 转换为 query_id。数据为纯文本，未加密。
相关链接:
- 论文: https://arxiv.org/abs/2311.12983
- 数据集: https://huggingface.co/datasets/gaia-benchmark/GAIA

3. WebWalkerQA & WebWalkerQA-ref

分片: webwalkerqa, webwalkerqa_ref
记录数: 各 680 条
语言: 英语
描述: 网页导航问答数据集，答案来自真实网站验证。问题需要浏览网页以寻找答案。
处理: 使用测试集，将 Question 重命名为 question，生成 query_id。
变体差异: webwalkerqa 为不包含 URL 的干净问题；webwalkerqa-ref 在问题文本中包含了参考 URL。
相关链接:
- 论文: https://arxiv.org/abs/2501.07572
- 数据集: https://huggingface.co/datasets/callanwu/WebWalkerQA

4. XBench DeepSearch

分片: xbench
记录数: 100
语言: 中文
描述: 用于评估中文网络搜索和推理能力的 DeepSearch 基准测试。数据已加密，以防止基准测试污染。
处理: 将 prompt 重命名为 question，id 转换为 query_id。数据保持加密状态。
重要提示: 该数据集使用带有 canary GUID 的 XOR 加密。请勿解密并重新上传。
相关链接:
- 论文: https://arxiv.org/abs/2506.13651
- 数据集: https://huggingface.co/datasets/xbench/DeepSearch

5. SealQA & SealQA-ref

分片: seal, seal_ref
记录数: 各 111 条
语言: 英语
描述: 来自 SealQA 基准测试中最难的 111 个问题（seal_0 分片），旨在评估搜索增强语言模型在事实寻求问题上的表现。
处理: 将 qid 转换为 query_id。
变体差异: seal 为不包含 URL 的干净问题；seal-ref 在问题文本中包含了来自元数据的参考 URL。
相关链接:
- 论文: https://arxiv.org/abs/2506.01062
- 数据集: https://huggingface.co/datasets/vtllms/sealqa/viewer/seal_0

6. BrowseComp

分片: browsecomp
记录数: 1,266
语言: 英语
描述: OpenAI 的 BrowseComp 基准测试，用于评估网页浏览和研究能力。问题需要持续搜索互联网以寻找难以找到的、信息纠缠的答案。数据已加密。
处理: 将 problem 重命名为 question，生成 query_id。数据保持加密状态。
重要提示: 该数据集使用带有 canary GUID 的 XOR 加密。请勿解密并重新上传。

使用方式

安装依赖

bash pip install datasets

加载数据集

python from datasets import load_dataset

加载特定分片

hle = load_dataset("OpenResearcher/web-bench", split="hle")

或一次性加载所有分片

all_datasets = load_dataset("OpenResearcher/web-bench")

搜集汇总

数据集介绍

构建方式

在深度研究评估领域，Web-Bench数据集通过精心整合多个权威基准构建而成。该数据集汇集了包括HLE、GAIA-text、WebWalkerQA、XBench DeepSearch、SealQA以及BrowseComp在内的六个核心子集，总计涵盖超过五千个问答对。构建过程遵循严格的标准化流程，对每个源数据集进行了字段映射与格式统一，确保所有条目均具备一致的查询标识、问题文本与答案文本结构。针对部分需要网络引用的子集，还专门衍生出包含参考URL的变体版本，从而形成了结构清晰、便于对比的综合性评估资源。

特点

Web-Bench数据集展现出鲜明的多元化与挑战性特征。其内容覆盖人文、科学、数学及现实世界查询等多个高难度领域，语言上兼含英文与中文，旨在全面检验模型的高级推理与深度研究能力。数据集特别设计了加密与明文并存的形态，例如XBench与BrowseComp子集采用加密处理以防止基准污染，而其他子集则提供清晰的问题-答案对。这种设计既保护了评估的公正性，又为研究者提供了不同安全级别的测试场景。各子集均经过筛选，聚焦于需要多步推理、网络导航或处理冲突信息的复杂问题，共同构成了一个前沿的、面向智能体深度研究能力的评估矩阵。

使用方法

研究者可借助HuggingFace的datasets库便捷地加载和使用Web-Bench数据集。通过指定数据集名称与相应的分割名称，即可独立访问HLE、GAIA-text等任一子集或其引用变体。加载后的数据遵循统一的JSON格式，包含query_id、question和answer三个核心字段，便于进行批量读取与迭代处理。该数据集主要服务于大型语言模型或智能体在深度网络搜索、复杂问题解答等任务上的性能评估与基准测试。在使用加密子集时，需遵循相关规范，仅限在受控的评估环境中使用官方提供的解密代码，以确保基准的完整性与有效性。

背景与挑战

背景概述

Web-Bench数据集由TIGER-AI实验室于2025年构建，旨在为深度研究智能体提供一个统一格式的综合性评估基准。该数据集整合了包括HLE、GAIA、WebWalkerQA、XBench、SealQA及BrowseComp在内的多个前沿基准，共计5209个问题-答案对，覆盖英文与中文双语环境。其核心研究问题聚焦于评估大型语言模型在复杂、长视野的深度研究任务中的表现，例如多步骤推理、网络搜索与信息整合能力。该数据集的发布显著推动了通用人工智能助手在开放领域研究轨迹合成方面的进展，为相关模型的性能评估与比较奠定了标准化基础。

当前挑战

Web-Bench数据集旨在解决深度研究任务中模型评估的标准化难题，其核心挑战在于如何设计能够全面衡量模型在复杂、开放域问题中搜索、推理与综合能力的基准。具体而言，数据集构建面临多重挑战：首先，需整合多个异构源数据集，确保数据格式的统一与质量的一致性，同时处理不同基准在问题难度、领域覆盖与答案格式上的差异。其次，为防范基准污染，部分数据如XBench和BrowseComp采用了加密处理，这增加了数据预处理与评估流程的复杂性。此外，数据集中包含需要参考URL的变体，要求模型具备真实网络环境下的信息检索与验证能力，进一步提升了评估任务的难度与真实性。

常用场景

经典使用场景

在深度网络研究领域，Web-Bench数据集作为综合性评估基准，其经典使用场景聚焦于对大型语言模型进行深度搜索与复杂推理能力的系统性评测。该数据集整合了包括GAIA、HLE、SealQA在内的多个权威子集，通过统一的格式提供涵盖多领域、多语言的问题-答案对，为研究者提供了标准化的测试平台。模型在此基准上的表现能够直观反映其在处理需要多步网络导航、信息整合与高级逻辑推理任务时的效能，成为衡量智能体研究能力的关键标尺。

实际应用

在实际应用层面，Web-Bench数据集为开发具备自主网络研究能力的AI助手提供了关键的训练与评估资源。基于此数据集训练的模型，能够应用于智能信息检索、自动化市场调研、学术文献综述辅助以及复杂客户支持等场景。例如，在金融或法律领域，模型可被赋予从海量网络信息中快速定位、验证并整合特定法规或市场数据的任务。数据集中的中文XBench子集则直接服务于中文互联网环境下的智能搜索产品开发，助力构建更符合本地化需求的研究型人工智能。

衍生相关工作

围绕Web-Bench数据集，学术界与工业界已衍生出一系列具有影响力的经典研究工作。例如，OpenResearcher项目利用该基准评估并发布了Nemotron-3-Nano-30B-A3B模型，展示了其在深度研究任务上的卓越性能。同时，WebThinker、SciMaster等研究框架均将Web-Bench作为核心评估工具，以验证其提出的智能体架构在长程推理与网络交互方面的有效性。这些工作不仅推动了模型能力的边界，也进一步丰富和细化了深度研究任务的定义与评测方法，形成了以该数据集为核心的良性研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集