The FACTS Leaderboard
收藏arXiv2025-12-12 更新2025-12-13 收录
下载链接:
https://www.kaggle.com/benchmarks/google/facts
下载链接
链接失效反馈官方服务:
资源简介:
FACTS Leaderboard是由谷歌DeepMind、谷歌研究院、谷歌云和Kaggle联合创建的一个综合性基准测试套件,旨在评估大型语言模型在多样化场景中生成事实准确文本的能力。该数据集包含约1500个问题,涵盖多模态、参数化、搜索和基于文档的四个子任务,通过自动化评估模型对问题的回答进行评分。数据来源于多样化的用户查询,经过精心筛选以确保客观性和信息性。该数据集的应用领域包括提升语言模型的事实性、多模态理解和信息检索能力,旨在解决模型生成不准确信息的问题。
The FACTS Leaderboard is a comprehensive benchmark suite jointly developed by Google DeepMind, Google Research, Google Cloud, and Kaggle. Its core objective is to evaluate the capacity of large language models (LLMs) to generate factually accurate text across a wide range of scenarios. This dataset comprises approximately 1,500 questions across four subtasks: multimodal, parameterized, search, and document-based, and employs automated evaluation to score model responses to the questions. The data is derived from diverse user queries, and has been rigorously screened to guarantee objectivity and informational value. Applications of this dataset focus on improving the factuality, multimodal understanding, and information retrieval capabilities of language models, with the ultimate goal of mitigating the issue of inaccurate information generated by AI models.
提供机构:
谷歌DeepMind, 谷歌研究院, 谷歌云, Kaggle
创建时间:
2025-12-12
搜集汇总
数据集介绍

构建方式
在大型语言模型事实性评估领域,构建综合性基准面临整合多维度能力的挑战。FACTS排行榜通过系统化流程构建了四个专项子基准:FACTS多模态基准从真实用户查询中筛选约1500个图像问题,并划分公开与私有集;FACTS参数化基准通过对抗性采样从维基百科源文档中提取2104个用户关心的困难事实问题;FACTS搜索基准融合人工编写与合成生成策略,收集1884个需要搜索工具解决的复杂查询;FACTS基础v2基准则沿用v1版本的长文档提示集,重点更新了评估模型。每个子集都经过严格的人工验证与自动化过滤,确保评估样本的多样性与挑战性。
特点
该数据集的核心特征体现在其多维度的评估架构与精细化的度量体系。通过整合多模态理解、参数化知识检索、搜索工具使用和文档基础四大能力维度,它突破了传统单任务评估的局限性,提供了对模型事实性能力的全景式刻画。每个子基准都配备了专业化的评估指标:多模态任务采用覆盖率与无矛盾性双重验证机制;参数化任务引入尝试准确率与对冲率等细粒度指标;搜索任务关注模型使用搜索工具的效率;基础任务则通过双重评估模型机制确保响应既准确又完整。这种分层评估体系能够揭示模型在不同信息源依赖场景下的性能差异。
使用方法
在自然语言处理研究领域,该数据集为系统评估语言模型的事实性提供了标准化协议。研究者可通过Kaggle平台提交模型至FACTS排行榜,模型将在统一的评估框架下接受四个子基准的自动化测试。评估过程采用分离的公开与私有提示集设计,有效防止过拟合。系统会为每个模型生成综合性的FACTS分数——即四个子任务准确率的平均值,同时提供各维度的详细性能分析。该基准支持持续维护与更新,既允许外部参与公开竞争,又通过私有集保护评估完整性,为追踪模型事实性进展提供了动态的测量工具。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域的迅猛发展,其生成内容的真实性已成为制约其可靠应用的核心瓶颈。为系统评估模型在不同场景下的真实性表现,Google DeepMind、Google Research等机构的研究团队于2025年联合推出了FACTS排行榜。该基准通过整合多模态理解、参数化知识检索、搜索工具使用及上下文锚定四个维度的专项评估,构建了一个全面衡量语言模型事实准确性的综合框架。其核心研究问题在于突破传统单任务评估的局限,从多源信息整合的视角系统性诊断模型在复杂现实场景中的真实性缺陷,为提升模型的可信部署提供了关键度量工具。
当前挑战
FACTS排行榜致力于解决大语言模型在多样化信息处理场景中保持事实一致性的根本挑战,具体涵盖模型在整合视觉与文本信息、依赖内部参数回答事实性问题、利用外部搜索工具获取信息以及严格依据给定文档生成内容时的准确性验证。在构建过程中,研究团队面临多重挑战:需设计能够有效区分模型能力差异的对抗性采样策略,确保评估问题的难度足以反映前沿模型的性能边界;需开发高可靠性的自动化评判模型,以替代高成本的人工标注,并在覆盖率和无矛盾性等维度与人类评判保持高度一致;同时,需平衡公开集与私有集的划分,以维护排行榜的长期有效性并防止模型过拟合。
常用场景
经典使用场景
在大型语言模型(LLM)事实性评估领域,FACTS排行榜提供了一个综合性基准套件,其最经典的使用场景在于对前沿LLM进行多维度的自动化事实性评估。该排行榜通过整合四个专项子榜单——多模态事实性、参数化知识、搜索工具使用以及文档基础——构建了一个统一的评估框架。研究者和开发者通常利用该排行榜,在受控环境中系统性地测试和比较不同模型在回答图像问题、回忆内部知识、利用搜索工具以及基于长文档生成回答时的准确性,从而获得模型整体事实可靠性的量化指标。
实际应用
在实际应用层面,FACTS排行榜的评估维度直接对应着LLM落地的关键场景。例如,在构建基于文档的智能助手(如法律、金融分析工具)时,FACTS Grounding的评估能确保回答严格基于给定材料,避免幻觉。在开发具备联网搜索功能的问答系统时,FACTS Search的基准可检验模型有效利用外部信息的能力。多模态评估则对图像理解与描述应用(如无障碍技术、内容审核)至关重要。企业或研究机构可依据该排行榜的细分结果,针对性地选择或优化模型,以部署在需要高事实准确性的生产环境中,如客户服务、教育内容生成或事实核查平台。
衍生相关工作
FACTS排行榜本身建立在先前一系列事实性评估工作的基础上,并催生了更深入的研究方向。其前身FACTS Grounding v1(Jacovi et al., 2025)专注于文档基础评估,而新版本扩展为综合套件。该排行榜的设计理念与TRUE(Honovich et al., 2022)、TruthfulQA(Lin et al., 2022)等专注于特定事实性维度的基准形成对话与补充。同时,其多维度评估框架可能启发后续研究,例如探索视频理解的事实性、动态信息更新的事实性,或将知识库调用作为工具的评估方法。排行榜公开的细分数据和自动化评判流程,也为社区进一步分析模型在长尾知识、多跳推理等具体挑战上的表现提供了基础。
以上内容由遇见数据集搜集并总结生成



