Platinum Benchmarks
收藏arXiv2025-02-06 更新2025-02-11 收录
下载链接:
https://github.com/MadryLab/platinum-benchmarks
下载链接
链接失效反馈官方服务:
资源简介:
Platinum Benchmarks是一组经过精心策划的测试集,目的是最小化标签错误和歧义,以便能够评估语言模型在任务上是否能够达到100%的准确度。这些测试集覆盖了数学、逻辑、表格理解、阅读理解、常识推理和视觉理解等多个能力类别,包含的问题从简单的单一操作到高年级的数学问题不等。作者通过对现有十五个流行测试集的修订,移除或纠正了错误和歧义,从而构建了这些Platinum Benchmarks。这些测试集可用于评估前沿语言模型在不同难度级别任务上的可靠性边界。
Platinum Benchmarks is a carefully curated collection of test sets designed to minimize labeling errors and ambiguity, enabling the evaluation of whether language models can achieve 100% accuracy on target tasks. These test sets cover multiple capability categories including mathematics, logic, table understanding, reading comprehension, commonsense reasoning and visual understanding, with problems ranging from simple single-step operations to advanced upper-level mathematical problems. The authors constructed these Platinum Benchmarks by revising fifteen existing popular test sets, removing or correcting labeling errors and ambiguities. These test sets can be used to evaluate the reliability boundaries of state-of-the-art language models on tasks across different difficulty levels.
提供机构:
麻省理工学院(MIT)
创建时间:
2025-02-06
搜集汇总
数据集介绍

构建方式
Platinum Benchmarks数据集的构建是通过精心挑选和修订现有的十五个流行基准来实现的。这些基准涵盖了六个能力类别:数学、逻辑、表格理解、阅读理解、常识推理和视觉理解。修订过程包括识别和纠正标签错误以及移除或重写模糊不清的问题。通过这种方法,研究人员旨在创建一个最小化标签错误和歧义的数据集,以便能够实现100%的性能。为了评估模型的可靠性,研究人员测试了一系列前沿模型在这些修订后的基准上的表现。
特点
Platinum Benchmarks数据集的特点在于其高可靠性,这是通过最小化标签错误和歧义来实现的。数据集的设计目标是确保模型能够在没有错误的情况下完成任务,从而提供了一个评估模型可靠性的新框架。此外,数据集还揭示了前沿模型在某些任务上的一致性失败模式,例如在识别两个事件中哪个发生在先的问题上,模型倾向于选择第一个事件。这些发现对于理解模型在简单任务上的局限性具有重要意义。
使用方法
使用Platinum Benchmarks数据集时,研究人员首先需要对模型进行测试,以评估其在各种能力类别上的可靠性。然后,他们可以分析模型在这些基准上的表现,以识别潜在的失败模式和局限性。此外,研究人员还可以利用这些数据集来改进模型的可靠性和准确性,例如通过调整提示策略或开发更少依赖于特定提示类型的模型。总之,Platinum Benchmarks数据集提供了一个评估和改进模型可靠性的有用工具。
背景与挑战
背景概述
在大型语言模型(LLM)的部署过程中,确保模型不仅具备能力,而且可靠至关重要。许多基准已被创建来追踪LLM能力的增长,然而,在衡量模型可靠性方面却没有类似的关注。为了理解这一差距的潜在影响,我们调查了当前基准如何量化模型可靠性。我们发现,普遍存在的标签错误可能会影响这些评估,掩盖模型中存在的失败,并隐藏不可靠的行为。受这种评估可靠性差距的启发,我们提出了所谓的“铂金基准”的概念,即精心策划的基准,以最大限度地减少标签错误和歧义。作为构建此类基准的首次尝试,我们修订了十五个现有流行基准的示例。我们对这些铂金基准上的各种模型进行了评估,并发现,事实上,前沿LLM在简单的任务(如小学水平的数学应用题)上仍然表现出失败。对这些失败的进一步分析揭示了前沿模型在哪些问题上始终挣扎的未知模式。我们在https://github.com/MadryLab/platinum-benchmarks上提供了代码。
当前挑战
当前基准在测试模型可靠性方面存在不足,导致评估结果受到标签错误和歧义的干扰,从而掩盖了模型的潜在问题。为了解决这一问题,我们提出了“铂金基准”的概念,即精心策划的基准,以最大限度地减少标签错误和歧义,从而确保100%的性能是可实现的。然而,构建这样的基准也面临挑战,包括覆盖LLM的相关能力和难度级别,以及确保每个基准的示例数量充足,以便能够准确地量化可靠性。此外,仅仅重新标记错误可能不足以消除所有问题,因为仍然可能存在未修订的基准中存在的低质量问题。随着模型可靠性的提高,构建专家级别的铂金基准将需要昂贵的专家注释。
常用场景
经典使用场景
Platinum Benchmarks 数据集旨在评估大型语言模型(LLMs)的可靠性。该数据集通过精心的数据清洗和标注,消除了传统基准测试中普遍存在的标签错误和歧义,从而确保了模型在测试中的准确性。它被广泛应用于研究LLMs在不同任务上的可靠性表现,特别是在那些看似简单但实际对模型准确性要求极高的任务上。例如,Platinum Benchmarks 在评估模型在基础算术、逻辑推理和常识推理等任务上的可靠性时,能够揭示出模型在这些看似简单的任务上的潜在问题。
解决学术问题
Platinum Benchmarks 数据集解决了现有基准测试中普遍存在的标签错误和歧义问题,这些问题往往掩盖了模型在简单任务上的失败,并隐藏了模型的不稳定行为。通过引入所谓的铂金基准,即精心策划以最小化标签错误和歧义的基准测试,Platinum Benchmarks 能够更准确地量化模型的可靠性。此外,该数据集还揭示了前沿模型在简单任务上的失败模式,如先验事件偏差和四舍五入质数等,为LLMs的可靠性研究提供了新的视角。
衍生相关工作
Platinum Benchmarks 数据集的提出和构建,推动了LLMs可靠性评估的新实践。在此基础上,后续的研究工作可以进一步探索和开发新的基准测试方法,以更全面地评估LLMs在各种任务上的可靠性。此外,Platinum Benchmarks 的构建过程也为其他领域的数据清洗和标注工作提供了参考和借鉴。例如,在图像识别、语音识别等领域,也可以借鉴 Platinum Benchmarks 的构建方法,创建更可靠和准确的数据集,以推动相关领域的研究和应用。
以上内容由遇见数据集搜集并总结生成



