SimpleQA Verified

Name: SimpleQA Verified
Creator: Google DeepMind, Google Research
Published: 2025-09-10 01:53:58
License: 暂无描述

arXiv2025-09-10 更新2025-11-04 收录

下载链接：

https://www.kaggle.com/datasets/deepmind/simpleqa-verified/data

下载链接

链接失效反馈

官方服务：

资源简介：

SimpleQA Verified 是一个由 Google DeepMind 和 Google Research 创建的 1000 条提示的基准数据集，用于评估大型语言模型 (LLM) 的短格式事实性。该数据集通过严格的过滤过程创建，包括去重、主题平衡和源数据校对，以产生更可靠和具有挑战性的评估集。数据集旨在解决 SimpleQA 基准数据集中存在的噪声和不正确的标签、主题偏差和问题冗余等问题。

SimpleQA Verified is a benchmark dataset of 1000 prompts created by Google DeepMind and Google Research, designed to evaluate the short-form factuality of Large Language Models (LLMs). This dataset is developed through a rigorous filtering process including deduplication, topic balancing, and source data proofreading, to produce a more reliable and challenging evaluation set. The dataset aims to address issues existing in the original SimpleQA benchmark, such as noisy and incorrect labels, topic bias, and question redundancy.

提供机构：

Google DeepMind, Google Research

创建时间：

2025-09-10

搜集汇总

数据集介绍

构建方式

在大型语言模型参数化知识评估领域，SimpleQA Verified通过多阶段严谨流程构建而成。该数据集从原始SimpleQA基准出发，依次执行源文档去重、语义与TF-IDF双重去歧、网络发布者偏好过滤等操作，并通过主题分布平衡与答案类型重构确保数据多样性。针对数值型问题特别设计了误差范围标注机制，最终通过对抗性筛选保留最具挑战性的千条样本，形成高信度的评估基准。

使用方法

该数据集专为无工具辅助的参数化知识评估设计，研究者可通过标准API接口调用模型进行短答案生成。评估过程采用改进的自动评分机制，针对数值型答案引入动态容错区间判定，对包含补充信息的回答实施核心内容提取策略。通过计算正确率与尝试正确率的调和平均数，形成兼顾完整性与准确性的综合评估指标。

背景与挑战

背景概述

随着大语言模型在知识密集型任务中的广泛应用，其参数化知识的事实准确性评估成为关键研究课题。2025年9月，Google DeepMind团队基于OpenAI的SimpleQA基准，推出了SimpleQA Verified数据集。该数据集通过多阶段过滤流程，包括去重处理、主题平衡和来源验证，构建了包含1000个提示的评估集，旨在更精准地衡量模型从内部参数提取事实的能力。该工作通过改进自动评分机制，显著提升了评估结果的可靠性，为追踪参数化知识进展提供了高保真工具。

当前挑战

在解决领域问题层面，该数据集致力于应对大语言模型参数化知识评估中的核心挑战：如何区分模型真实知识掌握与对评估集特定模式的过拟合。原始SimpleQA基准存在标注噪声、主题偏差和问题冗余等缺陷，导致评估信号失真。在构建过程中，研究团队面临多重技术挑战：需通过语义嵌入与TF-IDF双重去重消除问题相似性，依据网络发布者偏好筛选可用数据源，协调冲突来源以验证答案准确性，并重构数值型问题的容错区间以提升评分鲁棒性。

常用场景

经典使用场景

在大型语言模型评估领域，SimpleQA Verified作为参数知识事实性的基准测试工具，主要应用于评估模型从内部参数中直接回忆事实的能力。该数据集通过精心筛选的1000个短问答对，为研究社区提供了衡量模型参数化知识准确性的标准化平台，特别是在排除外部检索工具干扰的情况下，能够有效测试模型对长尾知识的掌握程度。

解决学术问题

该数据集有效解决了传统事实性基准测试中存在的标签噪声、主题偏见和问题冗余等关键问题。通过多阶段过滤流程，包括去重处理、主题平衡和源数据协调，显著提升了评估信号的纯净度，使得研究者能够更准确地区分模型在事实回忆能力上的真实进步，而非对基准测试特定特征的过度拟合。

实际应用

在实际应用层面，SimpleQA Verified为AI开发团队提供了可靠的模型性能监控工具，特别是在企业级应用中要求严格事实准确性的场景。该基准帮助开发者在医疗、法律、金融等高风险领域部署语言模型前，系统评估其参数知识的可靠性，从而降低模型产生幻觉输出的风险，增强用户对AI系统的信任度。

数据集最近研究