GRACE
收藏arXiv2025-02-27 更新2025-03-01 收录
下载链接:
https://github.com/yysung/advcalibration
下载链接
链接失效反馈官方服务:
资源简介:
GRACE数据集是由马里兰大学、伯克利加州大学和孟买印度理工学院的研究人员创建的,用于评估语言模型校准的细粒度基准。该数据集包含由专家编写的问题,每个问题至少有五个逐渐变简单的线索,这些问题在实时的人类与模型竞赛中收集。数据集旨在通过将人类的表现作为参考点,来测量模型的校准性能。
The GRACE dataset was created by researchers from the University of Maryland, University of California, Berkeley, and the Indian Institute of Technology Bombay as a fine-grained benchmark for evaluating language model calibration. It consists of expert-written questions, each accompanied by at least five progressively simplified clues, and these questions were collected from real-time human-model competitions. The dataset aims to measure the calibration performance of language models by taking human performance as a reference point.
提供机构:
马里兰大学, 伯克利加州大学, 孟买印度理工学院
创建时间:
2025-02-27
搜集汇总
数据集介绍

构建方式
GRACE数据集的构建过程包括由专家编写和编辑的问答对,每个问题包含一系列逐渐变易的线索,所有线索都指向同一个答案。这种设置允许基于模型回答的时间、准确性和自信度进行细粒度的校准测量。收集这些问题后,我们组织了真人对抗模型的竞赛,收集了1,749个关于人类和模型团队的时间、准确性和自信度的数据点。我们提出了一个指标,CALSCORE,使用GRACE来分析模型校准误差,并识别与人类行为不同的模型校准错误类型。我们发现,尽管人类的准确性低于模型,但人类通常校准得更好。由于最先进的模型在GRACE上表现不佳,因此它可以有效地评估模型校准的改进进度。
特点
GRACE数据集的特点是包含了一系列的问答对,每个问题都包含了一系列逐渐变易的线索,所有线索都指向同一个答案。这种设置允许基于模型回答的时间、准确性和自信度进行细粒度的校准测量。数据集还包含了真人对抗模型竞赛中收集的1,749个关于人类和模型团队的时间、准确性和自信度的数据点。GRACE是第一个以人类需求为基础评估模型校准的基准数据集。这个独特的数据集是新指标(CALSCORE)的基础,该指标可以分析模型校准误差,并识别与人类行为不同的模型校准错误类型。
使用方法
GRACE数据集的使用方法包括将其用作模型校准评估的基准。研究人员可以使用GRACE来评估模型的校准性能,并与人类校准性能进行比较。此外,GRACE还可以用于开发新的校准评估指标,如CALSCORE,该指标可以分析模型校准误差,并识别与人类行为不同的模型校准错误类型。
背景与挑战
背景概述
语言模型在预测时往往存在校准错误,导致其自信地给出错误答案。为了解决这一问题,Yoo Yeon Sung等研究人员于2025年提出了GRACE数据集,这是一个用于评估语言模型校准的基准,它将模型与人类的校准进行了比较。GRACE数据集由一系列问题-答案对组成,每个问题都包含一系列逐渐变简单的线索,所有线索都指向同一个答案;模型必须在线索揭示时尽可能早地给出正确答案。这种设置允许根据模型回答问题的早、准确性和自信程度来细粒度地测量模型的校准。研究人员通过收集这些问题,并举办人类与模型团队之间的实时问答竞赛,收集了1,749个关于人类和模型团队的时间、准确性和自信度的数据点。他们提出了一个名为CALSCORE的指标,使用GRACE来分析模型校准错误,并识别与人类行为不同的模型校准错误类型。研究发现,尽管人类的准确性低于模型,但人类的校准通常更好。由于最先进的模型在GRACE上表现不佳,因此它有效地评估了提高模型校准的进展。
当前挑战
GRACE数据集所解决的领域问题是语言模型的校准,具体挑战包括:1)模型往往在错误答案上过于自信,在正确答案上相对缺乏自信;2)构建过程中,研究人员通过专家作者设计问题,并要求线索对模型构成挑战,同时保持对人类清晰,以防止模型被歧义或虚假假设所迷惑。此外,GRACE数据集还引入了人类在实时问答竞赛中的反应,与先前仅允许模型-模型校准比较的校准评估方法不同,该数据集允许直接进行人类-模型校准比较。GRACE是第一个基于人类需求设计的模型校准评估基准数据集。
常用场景
经典使用场景
GRACE数据集主要用于评估语言模型校准的细粒度基准。该数据集包含一系列问题-答案对,每个问题都包含一系列逐步变简单的线索,所有线索都指向同一个答案。模型必须在线索逐渐揭示时尽可能早地给出正确答案。这种设置允许根据模型回答的时间、准确性和自信程度进行细粒度校准测量。GRACE通过收集这些问题,并举办人类与模型的实时竞赛,收集了1,749个数据点,用于分析人类和模型团队的计时、准确性和自信程度。我们提出了一个指标CALSCORE,它使用GRACE来分析模型校准错误,并识别与人类行为不同的模型校准错误类型。
解决学术问题
GRACE数据集解决了语言模型校准不准确的问题。该数据集提供了与人类校准进行比较的基准,使得模型能够以人类校准作为参考点进行校准。通过比较人类和模型的表现,GRACE能够识别模型在哪些方面存在校准错误,并帮助研究人员改进模型校准。此外,GRACE还提供了一个指标CALSCORE,它能够分析模型校准错误,并识别与人类行为不同的模型校准错误类型,从而为模型校准的改进提供指导。
衍生相关工作
GRACE数据集的衍生相关工作包括但不限于以下方面:1. 基于GRACE数据集的校准评估方法的研究;2. 基于GRACE数据集的模型校准改进算法的研究;3. 基于GRACE数据集的人类-模型校准比较研究;4. 基于GRACE数据集的校准指标的研究。这些相关工作旨在进一步探索和改进语言模型的校准性能,并为模型校准的研究和应用提供新的思路和方法。
以上内容由遇见数据集搜集并总结生成



