MAQA* and AmbigQA*
收藏arXiv2025-11-06 更新2025-11-08 收录
下载链接:
https://hf.co/collections/ttomov/llm-uncertainty-under-ambiguity,https://github.com/timtomov/llm-uncertainty-under-ambiguity
下载链接
链接失效反馈官方服务:
资源简介:
MAQA*和AmbigQA*是首批配备有来自事实共现估计的真实答案分布的模糊问答(QA)数据集。这些数据集首次允许在现实世界的模糊条件下对不确定性估计器进行原理性评估。数据集的内容包括显式地面真实答案分布p*,这些分布是从事实共现统计中估计的。数据集创建过程涉及到收集模糊的问答对,并估计每个问题的真实答案分布。这些数据集旨在解决当前LLMs不确定性量化方法在实际应用中的不足,特别是在处理具有非平凡随机性的问题时。
MAQA* and AmbigQA* are the first ambiguous question answering (QA) datasets equipped with ground-truth answer distributions derived from factual co-occurrence estimation. These datasets enable the first principled evaluation of uncertainty estimators under real-world ambiguous conditions. The datasets contain explicit ground-truth answer distributions p*, which are estimated from factual co-occurrence statistics. The dataset creation process involves collecting ambiguous QA pairs and estimating the ground-truth answer distribution for each question. These datasets are designed to address the limitations of current uncertainty quantification methods for large language models (LLMs) in practical applications, particularly when handling questions with nontrivial randomness.
提供机构:
慕尼黑工业大学计算、信息和科技学院 & 慕尼黑数据科学研究所
创建时间:
2025-11-06
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,模糊性问题回答数据集的构建一直是技术难点。MAQA*与AmbigQA*通过语料库共现统计的创新方法,首次实现了对真实答案分布的精确建模。具体而言,研究团队以英文维基百科作为预训练语料代理,通过关键词提取与答案词干化处理,结合双向蕴含模型验证事实共现关系,最终基于事实出现频率构建出468个MAQA*样本和2553个AmbigQA*样本的标注数据集。这种基于语料统计的构建方式既保留了语言固有的模糊性特征,又通过严谨的实证验证确保了分布估计的可靠性。
使用方法
该数据集主要应用于评估语言模型在模糊语境下的不确定性量化性能。研究者可通过对比模型预测分布与真实答案分布的KL散度,精确量化模型的认知不确定性水平。使用时应首先进行语义对齐处理,将模型输出通过双向蕴含模型映射到标准化的语义类别空间,继而计算模型分布与真实分布的差异度。该数据集支持对预测变异、内部表征和集成方法三类不确定性估计范式的系统评估,为开发新型不确定性量化方法提供了基准测试平台。
背景与挑战
背景概述
MAQA*与AmbigQA*数据集由慕尼黑工业大学团队于2025年提出,旨在解决大语言模型在不确定性量化研究中的关键缺陷。该数据集聚焦于现实语言任务中普遍存在的歧义性问题,通过构建首个配备真实答案分布概率的歧义问答基准,填补了现有评估体系在非零偶然不确定性场景下的空白。其创新性在于利用语料库共现统计量构建答案分布真值,为大语言模型在医疗诊断、法律咨询等高风险领域的可靠部署提供了理论支撑。
当前挑战
该数据集核心挑战体现在两方面:在领域问题层面,现有不确定性量化方法在歧义语境下性能急剧退化,预测分布、内部表征与集成方法均无法有效区分认知不确定性,导致评估指标接近随机水平;在构建过程中,需克服真实答案分布估计的复杂性,通过多源语料验证、语义对齐及蕴含推理等技术,确保分布真值与预训练数据统计特性的一致性,同时需解决低频答案采样偏差与语义等价类划分的粒度控制问题。
常用场景
经典使用场景
在自然语言处理领域,MAQA*和AmbigQA*数据集主要应用于评估大型语言模型在存在歧义性问题场景下的不确定性量化能力。这些数据集通过提供带有真实答案分布的问题对,使研究者能够系统分析模型在面临多答案问题时如何区分认知不确定性与固有歧义性。典型实验设置包括让模型生成答案分布,并通过KL散度等指标衡量其预测分布与真实分布的吻合程度。
解决学术问题
该数据集有效解决了传统不确定性量化方法在歧义性场景下的评估盲区。通过构建首个带有真实答案分布的歧义问答数据集,它揭示了基于预测分布、内部表征和集成方法的三类不确定性估计器在存在非零偶然不确定性时性能均会退化至随机水平。这一发现促使学界重新审视当前不确定性量化范式的理论基础,推动了面向真实语言歧义场景的评估框架建设。
实际应用
在医疗诊断和法律咨询等高风险领域,该数据集为开发可靠的人工智能系统提供了关键测试基准。通过模拟真实场景中存在的多答案问题,它帮助评估模型在面临治疗方案选择或法律条款解释时的不确定性表达能力。此外,在智能客服和教育系统中,该数据集可指导开发具有歧义感知能力的对话系统,使其能够识别问题固有的多解性并给出概率化回应。
数据集最近研究
最新研究方向
在自然语言处理领域,不确定性量化对于大语言模型的可信部署至关重要。MAQA*与AmbigQA*作为首个配备真实答案分布估计的模糊问答数据集,揭示了当前不确定性估计方法在存在歧义性时的系统性缺陷。前沿研究聚焦于探索预测分布变异、内部表征和集成方法在非零偶然不确定性下的失效机制,相关理论分析表明,基于熵或互信息的估计器在真实语言歧义场景中无法区分认知不确定性与内在模糊性。这一发现推动了面向训练阶段显式建模歧义性的新型不确定性量化范式发展,为医疗诊断、法律咨询等高风险领域的可靠应用提供了关键基准。
相关研究论文
- 1The Illusion of Certainty: Uncertainty quantification for LLMs fails under ambiguity慕尼黑工业大学计算、信息和科技学院 & 慕尼黑数据科学研究所 · 2025年
以上内容由遇见数据集搜集并总结生成



