five

BrowseComp-ZH

收藏
arXiv2025-05-01 更新2025-04-30 收录
下载链接:
https://github.com/PALIN2018/BrowseComp-ZH
下载链接
链接失效反馈
官方服务:
资源简介:
BrowseComp-ZH 是一个为全面评估大型语言模型(LLM)在中国网络上的浏览能力而设计的基准数据集。该数据集由289个多跳问题组成,涵盖了11个不同的领域,每个问题都经过逆向工程,从一个简短、客观且易于验证的答案(如日期、数字或专有名词)出发。为了确保问题的难度和答案的唯一性,采用了两阶段的质量控制协议。数据集旨在评估LLM在多跳检索、事实推理和在线信息整合方面的能力。数据集、构建指南和基准结果已公开发布。

BrowseComp-ZH is a benchmark dataset developed to comprehensively evaluate the browsing capabilities of large language models (LLMs) on the Chinese web. It comprises 289 multi-hop questions across 11 distinct domains. Each question was reverse-engineered starting from a short, objective, and verifiable answer such as dates, numbers, or proper nouns. To ensure the difficulty of the questions and the uniqueness of their answers, a two-stage quality control protocol was adopted. This dataset aims to assess LLMs' abilities in multi-hop retrieval, factual reasoning, and online information integration. The dataset, construction guidelines, and benchmark results have been publicly released.
提供机构:
北京大学
创建时间:
2025-04-28
原始信息汇总

BrowseComp-ZH 数据集概述

数据集简介

BrowseComp-ZH 是首个专门评估大语言模型在中文信息生态系统中真实网页浏览和推理能力的高难度基准测试。该数据集针对中文网页特有的语言、结构和检索挑战设计,包括碎片化平台、隐式语言模式和内容审查。

作者

Peilin Zhou, Bruce Leon, Xiang Ying, Can Zhang, Yifan Shao, Qichen Ye, Dading Chong, Zhiling Jin, Chenxuan Xie, Meng Cao, Yuxin Gu, Sixin Hong, Jing Ren, Jian Chen, Chao Liu, Yining Hua

主要特点

  • 原生中文构建:所有问题、检索链和浏览步骤均由专家直接用中文编写,确保真实的搜索难度。
  • 逆向工程多跳查询:每个任务从已知事实答案出发,通过多个约束条件(如时间、实体类型、描述)确保高检索难度和答案唯一性。
  • 三引擎验证和双阶段质量控制:所有问题在百度、必应(中国)和谷歌上验证,采用两阶段人工循环协议过滤易检索或模糊样本。
  • 全面基准测试:评估20多个系统,包括开源LLM、闭源API和代理搜索系统,诊断不同架构的浏览和推理能力。

数据集结构

BrowseComp-ZH/ ├── data/ │ ├── browsecomp-zh-encrypted.xlsx # 加密数据集 │ └── browsecomp-zh-decrypt.py # 解密脚本 ├── images/ # 可视化图表 ├── paper/ # 论文和补充材料 ├── README.md └── requirements.txt

数据集访问

  • 包含289个复杂多跳检索和推理问题,涵盖11个领域(如影视、技术、医学、历史)。
  • 数据集加密以防止未经授权的预训练。
  • 解密方法: bash python data/browsecomp-zh-decrypt.py --input data/browsecomp-zh-encrypted.xlsx --output data/browsecomp-zh-decrypted.xlsx

模型性能概览

模型 类别 推理 浏览 准确率 校准误差 (%) 企业
DeepSeek-V3 开源 8.7% 72 DeepSeek
GPT4o 闭源 6.2% 73 OpenAI
OpenAI DeepResearch AI搜索产品 - 42.9% 9 OpenAI

主要发现

  • 大多数独立LLM准确率低于10%,反映基准测试的高难度。
  • 具有显式推理能力的模型表现更优
  • 检索增强系统显著优于纯LLM,DeepResearch准确率最高(42.9%)。
  • 多跳检索管道至关重要:单次检索系统难以应对任务复杂性。
  • 校准误差与检索推理效果相关,突显浏览过程中置信度估计的挑战。

引用

bibtex @misc{browsecompzh2025, title={BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese}, author={Peilin Zhou and Bruce Leon and Xiang Ying and Can Zhang and Yifan Shao and Qichen Ye and Dading Chong and Zhiling Jin and Chenxuan Xie and Meng Cao and Yuxin Gu and Sixin Hong and Jing Ren and Jian Chen and Chao Liu and Yining Hua}, year={2025}, url={https://github.com/PALIN2018/BrowseComp-ZH} }

许可

BrowseComp-ZH 采用 MIT License仅限学术研究使用,不得用于敏感或高风险决策

搜集汇总
数据集介绍
main_image_url
构建方式
BrowseComp-ZH数据集的构建采用了逆向设计策略,专家标注团队基于11个领域的客观事实答案,精心设计具有多重约束条件的复杂查询问题。为确保问题难度,每个问题需通过百度、Bing和Google三大搜索引擎的首页结果验证,并采用两阶段质量控制流程——首阶段筛选非直接检索问题,次阶段通过AI代理与人工协同验证答案唯一性,最终形成包含289个高难度问题的基准数据集。
使用方法
使用BrowseComp-ZH评估时,需区分纯语言模型与搜索增强系统的测试模式。对于开源/闭源模型,采用正则表达式提取模型输出的精确答案,并通过GPT-4o进行自动化比对;对于AI搜索产品则需人工标注答案匹配度。评估指标除准确率外,还引入校准误差分析模型置信度。值得注意的是,该数据集特别适合检验多轮检索策略的有效性,测试时建议对比模型在有无网络访问权限下的表现差异,以全面评估其信息整合能力。
背景与挑战
背景概述
BrowseComp-ZH是由香港科技大学(广州)、北京大学、Mindverse AI等机构的研究团队于2025年推出的首个专注于评估大语言模型中文网页浏览能力的基准数据集。该数据集针对中文信息生态特有的语言结构、平台碎片化和文化语境等复杂因素,通过逆向设计方法构建了涵盖影视、艺术、地理等11个领域的289道多约束问题。其核心研究目标在于系统评估LLM在实时检索、信息整合及多跳推理方面的能力,填补了非英语环境下工具型智能体评估体系的空白。数据集的创新性体现在本土化构建策略和两阶段质量控制协议上,对推动中文信息检索与智能体研究具有里程碑意义。
当前挑战
BrowseComp-ZH面临的核心挑战主要体现在领域问题和构建过程两个维度。在领域层面,中文网络特有的信息碎片化(如百度百科、知乎等多平台数据孤岛)、命名规范不统一以及隐式指代等语言特性,使得传统基于关键词的检索策略失效,要求模型具备跨平台语义关联和文化语境理解能力。构建过程中,研究团队需克服三大难题:确保问题答案无法通过主流搜索引擎首页结果直接获取的检索难度控制;维持多约束条件下答案唯一性的验证复杂性;以及处理中文特有的省略表达与文化典故对问题设计带来的干扰。实验表明,即使性能最佳的DeepResearch系统准确率仅达42.9%,暴露出当前模型在跨源信息比对和动态知识整合方面的显著不足。
常用场景
经典使用场景
BrowseComp-ZH数据集专为评估大型语言模型(LLMs)在中文网络环境中的网页浏览能力而设计。其经典使用场景包括多跳检索、信息过滤和逻辑推理任务。例如,模型需要根据复杂查询(如涉及时间、空间和描述性条件的组合)从分散的中文网络资源中提取唯一且可验证的答案,如省级非物质文化遗产名录中的艺术形式或特定电视剧的详细信息。这些问题不仅测试模型的检索效率,还挑战其跨平台信息整合能力。
解决学术问题
该数据集解决了当前LLMs在非英语环境(尤其是中文)中动态信息检索能力评估的空白。通过反向设计高难度问题,它揭示了模型在真实中文网络环境下的局限性,如处理碎片化内容、不一致的命名规范及隐式语言逻辑的能力。其严格的验证流程(如三引擎关键词筛选和人工循环验证)确保了答案的唯一性,为研究社区提供了衡量模型检索-推理协同能力的标准化工具,推动了多语言信息检索领域的方法创新。
实际应用
在实际应用中,BrowseComp-ZH可优化中文搜索引擎和智能助手的核心能力。例如,教育领域可通过其评估AI辅导系统解答复杂文化历史问题的准确性;商业场景中能提升客服机器人从异构平台(如知乎、政府门户)提取政策或产品信息的能力。此外,该数据集对开发抗干扰检索系统具有重要价值,尤其在处理中文特有的省略表达和文化隐喻时,可增强模型在金融、医疗等高风险领域的可信度。
数据集最近研究
最新研究方向
随着大语言模型(LLMs)向工具化智能体的演进,实时网页浏览能力已成为衡量其推理与检索能力的关键指标。BrowseComp-ZH作为首个专注于中文信息环境的高难度基准测试,通过逆向设计构建了涵盖11个领域的289道多跳推理问题,旨在系统评估LLMs在碎片化、非结构化的中文网络环境中的信息整合能力。当前研究前沿聚焦于三个方向:一是探索检索增强生成(RAG)框架与多轮检索策略的协同优化,如DeepResearch系统通过迭代检索将准确率提升至42.9%;二是分析语言模型内在推理机制对性能的影响,实验表明具备显式推理能力的模型(如DeepSeek-R1)较基础模型有14.5%的性能跃升;三是研究跨语言知识迁移的局限性,证实直接翻译英文基准会因中文特有的隐式指代、文化参照等语言特性导致评估失效。该数据集的发布为中文搜索引擎优化、智能代理开发及多模态信息处理提供了重要的评估工具,尤其对政务咨询、文化传承等需要深度中文网络检索的场景具有实践意义。
相关研究论文
  • 1
    BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese北京大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作