BrowseComp-ZH

github2025-04-28 更新2025-04-29 收录

下载链接：

https://github.com/PALIN2018/BrowseComp-ZH

下载链接

链接失效反馈

官方服务：

资源简介：

BrowseComp-ZH是第一个专门设计用于评估大型语言模型在中文信息生态系统中的真实网络浏览和推理能力的高难度基准。该数据集包含289个复杂的多跳检索和推理问题，涵盖11个领域，包括电影与电视、技术、医学和历史。

BrowseComp-ZH is the first high-difficulty benchmark specifically designed to evaluate the real-world web browsing and reasoning capabilities of large language models within the Chinese information ecosystem. This dataset contains 289 complex multi-hop retrieval and reasoning questions, covering 11 domains including film and television, technology, medicine, and history.

创建时间：

2025-04-24

原始信息汇总

BrowseComp-ZH 数据集概述

数据集简介

BrowseComp-ZH 是首个专门评估大语言模型在中文信息生态系统中真实网页浏览和推理能力的高难度基准测试。该数据集针对中文网页的独特语言、结构和检索挑战设计，包括碎片化平台、隐式语言模式和内容审查。

作者

Peilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua

主要特点

原生中文构建：所有问题、检索链和浏览步骤均由专家直接用中文编写，确保真实的搜索难度。
逆向工程多跳查询：每个任务从已知事实答案出发，通过多个约束条件（如时间、实体类型、描述）确保高检索难度和答案唯一性。
三引擎验证和双阶段质量控制：所有问题在百度、Bing（中国）和Google上验证，采用两阶段人工协议过滤易检索或模糊样本。
全面基准测试：评估20多个系统，包括开源LLM、闭源API和代理搜索系统，诊断不同架构的浏览和推理能力。

数据集结构

BrowseComp-ZH/ ├── data/ │ ├── browsecomp-zh-encrypted.xlsx # 加密数据集 │ └── browsecomp-zh-decrypt.py # 解密脚本 ├── images/ # 可视化图表 ├── paper/ # 论文和补充材料 ├── README.md └── requirements.txt

数据集访问

包含289个复杂多跳检索和推理问题，涵盖11个领域（如影视、技术、医学、历史）。
数据集加密以防止未经授权的预训练。
解密方法： bash python data/browsecomp-zh-decrypt.py --input data/browsecomp-zh-encrypted.xlsx --output data/browsecomp-zh-decrypted.xlsx

模型性能概览

模型	类别	推理	浏览	准确率	校准误差 (%)	企业
DeepSeek-V3	开源	否	否	8.7%	72	DeepSeek
GPT4o	闭源	否	否	6.2%	73	OpenAI
OpenAI DeepResearch	AI搜索产品	-	是	42.9%	9	OpenAI

主要发现

大多数独立LLM准确率低于10%，反映基准测试的高难度。
具有显式推理能力的模型表现更优。
检索增强系统显著优于纯LLM，DeepResearch准确率最高（42.9%）。
多跳检索流程至关重要：单次检索系统难以应对任务复杂性。
校准误差与检索推理效果相关，突显浏览过程中置信度估计的挑战。

引用

bibtex @misc{browsecompzh2025, title={BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese}, author={Peilin Zhou and Bruce Leon and Xiang Ying and Can Zhang and Yifan Shao and Qichen Ye and Dading Chong and Zhiling Jin and Chenxuan Xie and Meng Cao and Yuxin Gu and Sixin Hong and Jing Ren and Jian Chen and Chao Liu and Yining Hua}, year={2025}, url={https://github.com/PALIN2018/BrowseComp-ZH} }

许可

采用MIT许可证。
数据集仅用于学术研究目的，不得用于敏感或高风险决策。

搜集汇总

数据集介绍

构建方式

在中文信息生态系统的复杂背景下，BrowseComp-ZH数据集的构建采用了逆向工程多跳查询设计方法。研究团队从已知事实答案出发，通过时间、实体类型、描述等多重约束条件逆向构造问题，确保每个任务具有高检索难度和答案唯一性。所有问题均由中文专家直接撰写，避免了翻译带来的偏差，并经过百度、必应（中国）和谷歌三大搜索引擎的交叉验证。采用两阶段人工介入的质量控制流程，有效过滤了易检索或模糊样本，最终形成包含289个复杂多跳检索推理问题的数据集。

特点

BrowseComp-ZH作为首个专注于中文网络浏览能力的高难度基准测试，其显著特征体现在原生中文构建的纯粹性。数据集完全基于中文语言特性和网络生态设计，涵盖影视、科技、医学等11个领域，精准捕捉了中文网络信息碎片化、语言模式隐晦等独特挑战。通过三引擎验证机制确保问题质量，其多跳检索设计模拟真实网络浏览场景，20余种不同架构模型的评测结果证实了基准的区分效度，最高准确率仅42.9%的数据充分体现了评估任务的挑战性。

使用方法

该数据集采用加密存储方式以保护评估价值，用户需运行解密脚本并输入嵌入文件中的验证令牌才能获取原始数据。解密后的Excel文件包含完整的问题集和评估标准，研究者可基于此开发或测试语言模型的网络浏览能力。为保持学术研究的严谨性，使用时应遵循特别许可协议，禁止将数据用于敏感或高风险决策。评测时建议参照论文中的多维度指标体系，包括推理能力、浏览准确率和校准误差等，以全面评估模型在中文网络环境下的综合表现。

背景与挑战

背景概述

BrowseComp-ZH数据集由Peilin Zhou、Bruce Leon等学者于2025年联合推出，是首个专注于评估大语言模型在中文网络环境下真实浏览与推理能力的高难度基准测试。该数据集灵感源自Wei等人提出的BrowseComp基准，但针对中文信息生态特有的语言结构、平台碎片化及内容审查等挑战进行了深度优化。作为中文互联网信息检索领域的重要工具，BrowseComp-ZH覆盖影视、科技、医学等11个垂直领域，通过逆向工程构建的289道多跳检索问题，有效填补了中文复杂网络行为评估的空白，为跨文化语境下的语言模型能力研究提供了关键数据支撑。

当前挑战

在领域问题层面，BrowseComp-ZH着力解决中文网络特有的三大挑战：碎片化平台导致的信息孤岛现象、汉语隐式表达带来的语义理解障碍，以及内容监管政策引发的数据获取壁垒。构建过程中，研究团队面临多引擎验证的复杂性，需协调百度、必应中国版和谷歌的检索差异；同时通过双阶段人工质检机制确保样本的高难度与答案唯一性。加密存储策略虽然保护了数据集价值，但也增加了学术使用的技术门槛，反映出开放科学与知识产权保护之间的平衡难题。

常用场景

经典使用场景

在自然语言处理领域，BrowseComp-ZH数据集被广泛应用于评估大型语言模型在中文网络环境中的浏览和推理能力。该数据集通过精心设计的多跳检索任务，模拟了真实世界中用户在中文互联网上查找复杂信息的过程。研究人员利用这一数据集，能够系统地测试模型在处理碎片化信息、理解隐式语言模式以及绕过内容审查等方面的表现。

解决学术问题

BrowseComp-ZH数据集解决了中文信息生态系统中大型语言模型评估的空白问题。其通过逆向工程构建的多跳查询任务，有效检验了模型在复杂检索场景下的推理能力。该数据集的高难度特性为学术界提供了衡量模型真实性能的标尺，特别是在处理中文特有的语言结构和内容限制方面具有开创性意义。

衍生相关工作

基于BrowseComp-ZH数据集，研究者们已开展多项重要工作。其中包括开发新型的多跳检索架构、设计专门的中文网络内容理解算法，以及构建更精准的模型校准方法。这些衍生研究不仅推动了中文自然语言处理技术的发展，也为其他语言的类似研究提供了可借鉴的方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集