idk_eval

Hugging Face2025-12-15 更新2025-12-16 收录

下载链接：

https://huggingface.co/datasets/Catlaugh/idk_eval

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估大型语言模型（LLMs）表达不确定性（'我不知道'）能力的多项选择题（MCQ）数据集。数据集合并了来自MMLU-Pro、LEXam和MedXpertQA的MCQ样本，支持可变选项长度（k=2-10）。数据集包含不同领域的题目，如法律和医学，并分为多个类别。每个类别有特定数量的题目，并生成了不同选项长度的变体。数据集包含英语和德语，使用CC-BY-4.0许可。

创建时间：

2025-12-14

原始信息汇总

数据集概述

基本信息

数据集名称: An MCQ Dataset for Evaluating LLMs’ Ability to Express Uncertainty (I Dont Know)
托管地址: https://huggingface.co/datasets/Catlaugh/idk_eval
许可证: CC-BY-4.0
语言: 英语 (en)、德语 (de)
标签: 评估 (evaluation)、法律 (legal)、医学 (medical)

数据集结构与内容

配置名称: idk_eval
数据划分: 仅包含 test 划分
数据文件: idk_eval/test-*
样本数量: 3105 个示例
数据集大小: 8839719 字节
下载大小: 4257544 字节

特征字段

question_id: 字符串，问题ID
question: 字符串，问题内容
options: 字符串列表，选项
answer_index: int64，答案索引
category: 字符串，类别
options_2 至 options_10: 字符串列表，不同选项长度的变体（k=2至10）
answer_index_2 至 answer_index_10: int64，对应不同选项长度变体的答案索引

数据来源与构建

来源数据集

MMLU-Pro: 来自多个领域的10选项多项选择题
LEXam: 来自法律的16选项多项选择题
MedXpertQA: 来自医学的10选项多项选择题

构建方法

为 LEXam 构建了4个类别：
- lexam_de_pos
- lexam_de_neg
- lexam_en_pos
- lexam_en_neg
为 MedXpertQA 构建了6个类别：
- medx_basic_science_reasoning
- medx_basic_science_understanding
- medx_diagnosis_reasoning
- medx_diagnosis_understanding
- medx_treatment_reasoning
- medx_treatment_understanding
排除了MMLU的 other 类别
每个类别采样115个问题
生成了选项长度变体 k ∈ [2, 10]
在数据集中，选项列命名为 options_{k}，答案索引列命名为 answer_index_{k}

相关资源

数据准备代码位于：https://huggingface.co/datasets/Catlaugh/idk_eval/blob/main/code/prepare_data.py

搜集汇总

数据集介绍

构建方式

在构建大规模语言模型评估框架的背景下，idk_eval数据集通过精心整合多个权威领域的多项选择题库而形成。该数据集从MMLU-Pro、LEXam和MedXpertQA三个来源中采样，涵盖了广泛的知识领域，包括法律与医学等专业学科。构建过程中，研究者依据题目内容与语言特性，为LEXam划分了四个子类别，为MedXpertQA定义了六个基于理解与推理的精细类别，并排除了MMLU中较为泛化的“其他”类别。每个类别均匀采样115道题目，并系统生成了选项数量从2到10不等的多种变体，从而构建出一个结构严谨、覆盖全面的评估集合。

特点

idk_eval数据集的核心特点在于其专注于评估语言模型表达不确定性的能力，即模型在面临知识边界时能否合理回应“我不知道”。数据集包含3105个测试样本，题目以英语和德语呈现，体现了多语言评估的维度。其数据结构设计精巧，为每个原始问题配套了多达九种不同选项数量的变体，通过`options_k`与`answer_index_k`的字段清晰组织，使得研究者能够系统分析选项数量对模型判断的影响。这种可变选项长度的设计，为探究模型在信息完备性不同场景下的表现提供了独特而宝贵的实验基础。

使用方法

该数据集主要用于对大型语言模型进行系统性评估，特别是检验其在面对超出知识范围或信息模糊的问题时，是否能够展现出恰当的谨慎与诚实。使用者可以通过加载HuggingFace平台上的数据集，直接访问其唯一的测试分割。在具体应用中，研究者可以针对同一问题，依次调用不同`k`值对应的选项与答案索引，构建出从二选一到十选一的连续测试序列。通过分析模型在这些序列上的表现变化，能够深入量化其“不知道”行为的触发条件与可靠性，为提升模型的安全性与可信度提供实证依据。

背景与挑战

背景概述

在大型语言模型（LLM）能力评估领域，准确衡量模型在不确定性表达方面的表现已成为一项关键研究议题。idk_eval数据集应运而生，旨在系统评估LLM在面临知识边界时能否恰当地表达“我不知道”的倾向。该数据集由研究人员通过整合MMLU-Pro、LEXam及MedXpertQA三个权威多选题资源构建而成，涵盖了法律、医学及多学科领域的知识内容。其核心研究问题聚焦于探索模型在复杂决策场景中识别自身知识局限性的能力，为提升LLM的可靠性与透明度提供了重要的评估基准。

当前挑战

idk_eval数据集致力于解决LLM在不确定性表达评估中的标准化难题，其核心挑战在于如何设计能够有效区分模型盲目猜测与合理回避的评测框架。在构建过程中，研究人员需处理来自不同领域原始数据集的异构格式，并确保多选题选项数量在2至10之间灵活可变的同时维持标签一致性。此外，法律与医学领域专业术语的精确性、问题分类的逻辑严谨性，以及跨语言样本（如德语与英语）的均衡采样，均为数据集构建带来了显著的技术复杂性。

常用场景

经典使用场景

在大型语言模型评估领域，idk_eval数据集被设计用于系统检验模型在面临不确定性时的表达能力，特别是评估模型能否在多项选择题中合理选择“我不知道”选项。该数据集整合了来自MMLU-Pro、LEXam和MedXpertQA的多样化题目，涵盖法律、医学等多个专业领域，并支持2至10个选项长度的变体，为研究者提供了一个标准化的测试平台，以深入探究模型在复杂知识边界下的决策行为。

衍生相关工作

围绕idk_eval数据集，已衍生出一系列关注模型不确定性评估的经典研究工作。这些工作不仅借鉴了其多领域、多选项长度的构建思路，还进一步拓展了评估维度，例如研究模型置信度分数与“我不知道”回答之间的关联性，或者开发新的训练范式以鼓励模型在适当时候承认无知。这些研究共同推动了AI评估方法论的发展，使模型自我认知能力成为一个日益重要的评估标准。

数据集最近研究