xbench-ScienceQA, xbench-DeepSearch

github2025-05-28 更新2025-06-19 收录

下载链接：

https://github.com/xbench-ai/xbench-evals

下载链接

链接失效反馈

官方服务：

资源简介：

ScienceQA是xbench AGI Tracking系列的一部分，专注于评估跨科学领域的基础知识能力。DeepSearch是xbench AGI Tracking系列的一部分，专注于评估搜索和信息检索场景中的工具使用能力。

ScienceQA is part of the xbench AGI Tracking series, focusing on evaluating basic knowledge capabilities across scientific disciplines. DeepSearch is also part of the xbench AGI Tracking series, focusing on evaluating tool usage capabilities in search and information retrieval scenarios.

创建时间：

2025-05-28

原始信息汇总

xbench-evals 数据集概述

数据集简介

xbench-evals 是一个用于评估AI系统性能的数据集和评估框架，包含两个互补的评估方向：

AGI Tracking：评估核心模型能力，如推理、工具使用和记忆
Profession Aligned：基于工作流程、环境和业务KPI的评估，与领域专家共同设计

数据集内容

xbench-ScienceQA

评估目标：评估科学领域的基础知识能力
详细信息：
- 参考网站：xbench-ScienceQA
- 评估卡片：xbench-ScienceQA.pdf（中文版）
模型排名：

Rank Model Company Score BoN (N=5) Time cost (s)

1 o3-high OpenAI 60.8 78.0 87.7

2 Gemini 2.5 Pro Google 57.2 74.0 63.7

3 Doubao-1.5-thinking-pro ByteDance 53.6 69.0 116.9

xbench-DeepSearch

评估目标：评估搜索和信息检索场景中的工具使用能力
详细信息：
- 参考网站：xbench-DeepSearch
- 评估卡片：xbench-DeepSearch.pdf（中文版）
模型排名：

Rank Model Mode Company Accuracy Evaluation Date

1 o3 Search OpenAI 65+ 2025.05

2 o4-mini-high Search OpenAI 60+ 2025.05

3 Doubao Deep Think ByteDance 50+ 2025.05

数据集获取

Hugging Face 数据集链接：xbench

使用说明

环境设置：
- 设置 *_API_KEY 环境变量
- 默认使用 gemini-2.0-flash 作为评判模型，需设置 GOOGLE_API_KEY
安装依赖： bash pip install openai
运行评估： bash python xbench_evals.py --model <model_name> --dataset <data/ScienceQA.csv or data/DeepSearch.csv> --n-repeats <num_repeats>
注意事项：
- 基准数据已加密以防止搜索引擎爬取和污染
- 可使用 xbench_evals.py 中的解密代码获取明文数据
- 请勿将明文数据上传至网络

提交评估

如需评估您的AI代理，请联系：team@xbench.org

搜集汇总

数据集介绍

构建方式

xbench-ScienceQA和xbench-DeepSearch作为xbench评估框架的核心组件，其构建过程体现了严谨的科学方法论。ScienceQA专注于科学领域的知识能力评估，通过跨学科专家团队合作，精选涵盖物理、化学、生物等基础科学领域的高质量题目，确保评估内容的专业性和全面性。DeepSearch则聚焦信息检索场景的工具使用能力评估，采用真实搜索环境下的复杂查询任务，通过模拟专业工作流程设计评估指标。两个数据集均采用加密存储技术防止数据污染，并建立动态更新机制保持评估的时效性。

使用方法

使用xbench评估套件需要遵循规范的技术流程。评估前需配置相应的API密钥环境变量，安装指定版本的Python依赖库。通过命令行工具可灵活选择评估模型和数据集，支持自定义重复次数以确保结果稳定性。数据集采用加密存储，运行评估脚本时自动解密处理，但要求用户严格遵守数据保密协议。评估系统采用模块化设计，用户可通过修改language_models.py文件扩展对新模型的支持。为保障评估结果的可比性，建议使用官方推荐的评判模型，并定期更新至最新评估标准。对于定制化评估需求，官方提供专业的技术支持服务。

背景与挑战

背景概述

xbench-ScienceQA和xbench-DeepSearch是由xbench团队开发的AGI追踪系列评估数据集，旨在系统性地衡量人工智能模型在科学知识掌握和信息检索工具使用方面的核心能力。该数据集由专业研究机构联合领域专家共同设计，于2025年正式发布，其创新性体现在将基础能力评估与现实工作场景需求相结合。ScienceQA专注于跨学科科学问题的解答能力评估，覆盖物理、化学、生物等核心科学领域；DeepSearch则针对复杂信息检索场景中的工具使用能力进行测试。这两个数据集通过标准化的评估框架，为比较不同AI系统的认知能力提供了重要基准，对推动通用人工智能的发展具有重要意义。

当前挑战

在解决领域问题方面，ScienceQA面临如何准确评估模型对跨学科科学概念的理解深度这一挑战，特别是当涉及前沿科学知识时，标准答案的界定存在难度；DeepSearch则需要解决复杂搜索场景中工具使用策略的量化评估问题。在构建过程中，研究团队遭遇了多重挑战：为防止数据集污染，采用了数据加密技术，这增加了数据处理复杂度；同时，为保持评估的时效性，需要持续更新科学领域的最新进展；此外，设计既反映真实场景又具备可重复性的评估任务，需要在专业性和普适性之间取得平衡。

常用场景

经典使用场景

在人工智能领域，xbench-ScienceQA和xbench-DeepSearch数据集被广泛应用于评估模型的核心能力。ScienceQA专注于科学领域的知识掌握和推理能力测试，通过多学科交叉的问题设计，考察模型在物理、化学、生物等基础科学中的表现。DeepSearch则聚焦于信息检索场景中的工具使用能力，模拟真实环境下的复杂搜索任务，评估模型在获取和处理信息方面的效率与准确性。这些数据集为研究者提供了标准化的测试平台，帮助量化模型在特定领域的性能。

解决学术问题

xbench系列数据集有效解决了人工智能研究中模型评估标准不统一的问题。ScienceQA通过构建跨学科的科学问题库，填补了专业领域知识评估的空白，为衡量模型的认知深度提供了可靠依据。DeepSearch则针对信息检索中的工具使用难题，设计了层次化的搜索任务，推动了对模型交互能力和实用性的研究。这些数据集的出现，使得学术界能够更客观地比较不同模型在核心能力上的差异，促进了评估方法的标准化进程。

实际应用

在实际应用中，xbench数据集被科技公司广泛用于产品研发和质量控制。ScienceQA的评估结果可直接反映AI助手在科普教育、学术研究支持等场景中的表现，帮助企业优化知识服务产品。DeepSearch的测试则为搜索引擎、智能问答系统提供了性能基准，指导开发者改进信息检索算法。这些数据集构建的真实场景测试环境，确保了评估结果与商业应用需求的高度相关性，成为连接学术研究与产业落地的重要桥梁。

数据集最近研究

Rank	Model	Company	Score	BoN (N=5)	Time cost (s)
1	o3-high	OpenAI	60.8	78.0	87.7
2	Gemini 2.5 Pro	Google	57.2	74.0	63.7
3	Doubao-1.5-thinking-pro	ByteDance	53.6	69.0	116.9

Rank	Model	Mode	Company	Accuracy	Evaluation Date
1	o3	Search	OpenAI	65+	2025.05
2	o4-mini-high	Search	OpenAI	60+	2025.05
3	Doubao	Deep Think	ByteDance	50+	2025.05