GRACE

Name: GRACE
Creator: 马里兰大学, 伯克利加州大学, 孟买印度理工学院
Published: 2025-02-27 09:51:45
License: 暂无描述

arXiv2025-02-27 更新2025-03-01 收录

下载链接：

https://github.com/yysung/advcalibration

下载链接

链接失效反馈

官方服务：

资源简介：

GRACE数据集是由马里兰大学、伯克利加州大学和孟买印度理工学院的研究人员创建的，用于评估语言模型校准的细粒度基准。该数据集包含由专家编写的问题，每个问题至少有五个逐渐变简单的线索，这些问题在实时的人类与模型竞赛中收集。数据集旨在通过将人类的表现作为参考点，来测量模型的校准性能。

The GRACE dataset was created by researchers from the University of Maryland, University of California, Berkeley, and the Indian Institute of Technology Bombay as a fine-grained benchmark for evaluating language model calibration. It consists of expert-written questions, each accompanied by at least five progressively simplified clues, and these questions were collected from real-time human-model competitions. The dataset aims to measure the calibration performance of language models by taking human performance as a reference point.

提供机构：

马里兰大学, 伯克利加州大学, 孟买印度理工学院

创建时间：

2025-02-27

搜集汇总

数据集介绍

构建方式

GRACE数据集的构建过程包括由专家编写和编辑的问答对，每个问题包含一系列逐渐变易的线索，所有线索都指向同一个答案。这种设置允许基于模型回答的时间、准确性和自信度进行细粒度的校准测量。收集这些问题后，我们组织了真人对抗模型的竞赛，收集了1,749个关于人类和模型团队的时间、准确性和自信度的数据点。我们提出了一个指标，CALSCORE，使用GRACE来分析模型校准误差，并识别与人类行为不同的模型校准错误类型。我们发现，尽管人类的准确性低于模型，但人类通常校准得更好。由于最先进的模型在GRACE上表现不佳，因此它可以有效地评估模型校准的改进进度。

特点

GRACE数据集的特点是包含了一系列的问答对，每个问题都包含了一系列逐渐变易的线索，所有线索都指向同一个答案。这种设置允许基于模型回答的时间、准确性和自信度进行细粒度的校准测量。数据集还包含了真人对抗模型竞赛中收集的1,749个关于人类和模型团队的时间、准确性和自信度的数据点。GRACE是第一个以人类需求为基础评估模型校准的基准数据集。这个独特的数据集是新指标（CALSCORE）的基础，该指标可以分析模型校准误差，并识别与人类行为不同的模型校准错误类型。

使用方法

GRACE数据集的使用方法包括将其用作模型校准评估的基准。研究人员可以使用GRACE来评估模型的校准性能，并与人类校准性能进行比较。此外，GRACE还可以用于开发新的校准评估指标，如CALSCORE，该指标可以分析模型校准误差，并识别与人类行为不同的模型校准错误类型。

背景与挑战

背景概述

语言模型在预测时往往存在校准错误，导致其自信地给出错误答案。为了解决这一问题，Yoo Yeon Sung等研究人员于2025年提出了GRACE数据集，这是一个用于评估语言模型校准的基准，它将模型与人类的校准进行了比较。GRACE数据集由一系列问题-答案对组成，每个问题都包含一系列逐渐变简单的线索，所有线索都指向同一个答案；模型必须在线索揭示时尽可能早地给出正确答案。这种设置允许根据模型回答问题的早、准确性和自信程度来细粒度地测量模型的校准。研究人员通过收集这些问题，并举办人类与模型团队之间的实时问答竞赛，收集了1,749个关于人类和模型团队的时间、准确性和自信度的数据点。他们提出了一个名为CALSCORE的指标，使用GRACE来分析模型校准错误，并识别与人类行为不同的模型校准错误类型。研究发现，尽管人类的准确性低于模型，但人类的校准通常更好。由于最先进的模型在GRACE上表现不佳，因此它有效地评估了提高模型校准的进展。

当前挑战

GRACE数据集所解决的领域问题是语言模型的校准，具体挑战包括：1)模型往往在错误答案上过于自信，在正确答案上相对缺乏自信；2)构建过程中，研究人员通过专家作者设计问题，并要求线索对模型构成挑战，同时保持对人类清晰，以防止模型被歧义或虚假假设所迷惑。此外，GRACE数据集还引入了人类在实时问答竞赛中的反应，与先前仅允许模型-模型校准比较的校准评估方法不同，该数据集允许直接进行人类-模型校准比较。GRACE是第一个基于人类需求设计的模型校准评估基准数据集。

常用场景

经典使用场景

GRACE数据集主要用于评估语言模型校准的细粒度基准。该数据集包含一系列问题-答案对，每个问题都包含一系列逐步变简单的线索，所有线索都指向同一个答案。模型必须在线索逐渐揭示时尽可能早地给出正确答案。这种设置允许根据模型回答的时间、准确性和自信程度进行细粒度校准测量。GRACE通过收集这些问题，并举办人类与模型的实时竞赛，收集了1,749个数据点，用于分析人类和模型团队的计时、准确性和自信程度。我们提出了一个指标CALSCORE，它使用GRACE来分析模型校准错误，并识别与人类行为不同的模型校准错误类型。

解决学术问题

GRACE数据集解决了语言模型校准不准确的问题。该数据集提供了与人类校准进行比较的基准，使得模型能够以人类校准作为参考点进行校准。通过比较人类和模型的表现，GRACE能够识别模型在哪些方面存在校准错误，并帮助研究人员改进模型校准。此外，GRACE还提供了一个指标CALSCORE，它能够分析模型校准错误，并识别与人类行为不同的模型校准错误类型，从而为模型校准的改进提供指导。

衍生相关工作

GRACE数据集的衍生相关工作包括但不限于以下方面：1. 基于GRACE数据集的校准评估方法的研究；2. 基于GRACE数据集的模型校准改进算法的研究；3. 基于GRACE数据集的人类-模型校准比较研究；4. 基于GRACE数据集的校准指标的研究。这些相关工作旨在进一步探索和改进语言模型的校准性能，并为模型校准的研究和应用提供新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集