Controlled_Easy, Controlled_Hard, Realistic

github2025-03-20 更新2025-04-10 收录

下载链接：

https://github.com/apple/ml-uncertainty-llms-instruction-following

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含在data子文件夹中的.json文件。Controlled_Easy数据集的标签为[correct, incorrect]，Controlled_Hard数据集的标签为[correct, subtle_off]，Realistic数据集的标签为[correct, incorrect]。这些数据集专为评估指令跟随的不确定性而设计。

The dataset contains . files within the data subfolder. The Controlled_Easy dataset is labeled with [correct, incorrect], the Controlled_Hard dataset is labeled with [correct, subtle_off], and the Realistic dataset is labeled with [correct, incorrect]. These datasets are specifically designed for evaluating the uncertainty of instruction following.

创建时间：

2025-03-20

原始信息汇总

数据集概述

基本信息

数据集名称: 未明确命名（与论文相关）
关联论文: Do LLMs estimate uncertainty well in instruction-following?
作者: Heo, J., Xiong, M., Heinze-Deml, C., & Narain, J. (2024)
会议: ICLR 2025
许可证:
- 代码许可证: LICENSE
- 数据集许可证: LICENSE_DATASET

数据集内容

数据格式: JSON文件
存储位置: 数据子文件夹（data subfolder）
数据集类型:
- Controlled_Easy: 标签为[correct, incorrect]
- Controlled_Hard: 标签为[correct, subtle_off]
- Realistic: 标签为[correct, incorrect]

数据集用途

主要目的: 用于评估指令跟随中的不确定性
基准方法:
- 困惑度（perplexity）
- 其他LLM的评分
- 最大序列概率
- 熵
- P true
- 归一化P true

相关资源

代码脚本:
- 运行基准不确定性估计方法: bash script/baseline_uncertainty.sh
- 结果检查: notebooks/baseline.ipynb

搜集汇总

数据集介绍

构建方式

在指令跟随不确定性评估领域，Controlled_Easy、Controlled_Hard和Realistic三个数据集的构建体现了严谨的实验设计理念。该数据集基于IFEval基准测试集进行针对性改造，通过剥离混杂因素构建了专门评估指令跟随不确定性的标准化测试环境。研究人员采用分层抽样策略，分别构建了包含明确错误标签的简单控制集（Controlled_Easy）、包含细微偏差标签的复杂控制集（Controlled_Hard）以及模拟真实场景的实践数据集（Realistic），所有数据均以结构化JSON格式存储，确保了实验数据的可追溯性和可复现性。

特点

该数据集系列最显著的特征在于其多维度评估体系的构建。Controlled_Easy通过二元标签（正确/错误）建立基础评估基准，Controlled_Hard引入'subtle_off'标签捕捉模型对细微指令偏差的敏感性，Realistic数据集则还原了真实应用场景中的指令复杂性。三个子集相互补充，既包含理想化控制环境也涵盖现实应用场景，为全面评估大语言模型在指令跟随中的不确定性估计能力提供了层次化的测试框架，其标注体系特别针对混淆因素进行了优化设计。

使用方法

使用该数据集时需结合配套的基准测试脚本系统。通过执行baseline_uncertainty.sh脚本可自动运行论文中列出的五种不确定性评估方法，包括语言化置信度困惑值、最大序列概率等核心指标。研究人员可在notebooks/baseline.ipynb中定制化分析结果，该交互式环境支持按数据子集筛选和AUC指标可视化，用户可根据需要选择特定数据集（如仅分析Controlled_Hard的细微偏差检测）进行针对性评估，所有输出结果均采用标准化格式以便横向比较。

背景与挑战

背景概述

由Heo等学者于2024年提出的Controlled_Easy、Controlled_Hard和Realistic数据集，源自对IFEval指令跟随数据集的创新性重构，旨在专门评估大型语言模型（LLMs）在指令跟随任务中的不确定性估计能力。作为ICLR 2025会议论文的核心成果，该数据集通过剥离混杂因素，构建了三个层次化的评估场景：基础指令正确性判别（Controlled_Easy）、细微指令偏差检测（Controlled_Hard）以及真实场景指令执行（Realistic）。这一工作填补了LLMs在开放式任务中自我评估可靠性研究的方法学空白，为模型可解释性研究提供了标准化基准工具。

当前挑战

该数据集针对指令跟随不确定性评估这一新兴领域，面临双重挑战。在学术层面，如何定义并量化模型对开放式指令的置信度缺乏统一框架，现有指标如困惑度、序列概率等难以捕捉语义层面的细微偏差。在构建层面，数据重构需平衡真实场景复杂性与受控实验纯度：Controlled_Hard要求人工标注‘微妙偏差’的边界，Realistic需确保指令多样性同时维持标签一致性。此外，基线方法跨数据集的泛化性验证也暴露出评估协议标准化不足的问题。

常用场景

经典使用场景

在自然语言处理领域，Controlled_Easy、Controlled_Hard和Realistic数据集被广泛应用于评估大型语言模型在指令跟随任务中的不确定性估计能力。这些数据集通过精心设计的实验场景，模拟了不同难度级别的指令理解任务，为研究者提供了标准化的测试平台。特别是在模型自我评估和置信度量化研究中，这些数据集能够有效区分模型在不同复杂度任务中的表现差异。

衍生相关工作

基于该数据集的研究催生了多项重要工作，包括新型不确定性量化指标的提出、指令跟随模型的鲁棒性增强方法，以及自适应置信度校准技术。相关成果已推动形成了更完善的评估框架，为后续研究如多模态指令理解和复杂任务分解等方向奠定了基础。

数据集最近研究