BrowseComp-ZH
收藏BrowseComp-ZH 数据集概述
数据集简介
BrowseComp-ZH 是首个专门评估大语言模型在中文信息生态系统中真实网页浏览和推理能力的高难度基准测试。该数据集针对中文网页的独特语言、结构和检索挑战设计,包括碎片化平台、隐式语言模式和内容审查。
作者
Peilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua
主要特点
- 原生中文构建:所有问题、检索链和浏览步骤均由专家直接用中文编写,确保真实的搜索难度。
- 逆向工程多跳查询:每个任务从已知事实答案出发,通过多个约束条件(如时间、实体类型、描述)确保高检索难度和答案唯一性。
- 三引擎验证和双阶段质量控制:所有问题在百度、Bing(中国)和Google上验证,采用两阶段人工协议过滤易检索或模糊样本。
- 全面基准测试:评估20多个系统,包括开源LLM、闭源API和代理搜索系统,诊断不同架构的浏览和推理能力。
数据集结构
BrowseComp-ZH/ ├── data/ │ ├── browsecomp-zh-encrypted.xlsx # 加密数据集 │ └── browsecomp-zh-decrypt.py # 解密脚本 ├── images/ # 可视化图表 ├── paper/ # 论文和补充材料 ├── README.md └── requirements.txt
数据集访问
- 包含289个复杂多跳检索和推理问题,涵盖11个领域(如影视、技术、医学、历史)。
- 数据集加密以防止未经授权的预训练。
- 解密方法: bash python data/browsecomp-zh-decrypt.py --input data/browsecomp-zh-encrypted.xlsx --output data/browsecomp-zh-decrypted.xlsx
模型性能概览
| 模型 | 类别 | 推理 | 浏览 | 准确率 | 校准误差 (%) | 企业 |
|---|---|---|---|---|---|---|
| DeepSeek-V3 | 开源 | 否 | 否 | 8.7% | 72 | DeepSeek |
| GPT4o | 闭源 | 否 | 否 | 6.2% | 73 | OpenAI |
| OpenAI DeepResearch | AI搜索产品 | - | 是 | 42.9% | 9 | OpenAI |
主要发现
- 大多数独立LLM准确率低于10%,反映基准测试的高难度。
- 具有显式推理能力的模型表现更优。
- 检索增强系统显著优于纯LLM,DeepResearch准确率最高(42.9%)。
- 多跳检索流程至关重要:单次检索系统难以应对任务复杂性。
- 校准误差与检索推理效果相关,突显浏览过程中置信度估计的挑战。
引用
bibtex @misc{browsecompzh2025, title={BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese}, author={Peilin Zhou and Bruce Leon and Xiang Ying and Can Zhang and Yifan Shao and Qichen Ye and Dading Chong and Zhiling Jin and Chenxuan Xie and Meng Cao and Yuxin Gu and Sixin Hong and Jing Ren and Jian Chen and Chao Liu and Yining Hua}, year={2025}, url={https://github.com/PALIN2018/BrowseComp-ZH} }
许可
- 采用MIT许可证。
- 数据集仅用于学术研究目的,不得用于敏感或高风险决策。




