UNCLE

Name: UNCLE
Creator: 复旦大学, 剑桥大学, 腾讯AI实验室
Published: 2025-05-23 01:16:08
License: 暂无描述

arXiv2025-05-23 更新2025-05-24 收录

下载链接：

https://github.com/rhyang2021/UNCLE

下载链接

链接失效反馈

官方服务：

资源简介：

UNCLE数据集是首个旨在评估大型语言模型在长篇和短篇问答中表达不确定性的基准数据集。数据集包含5000个长篇问答实例和超过20000个短篇问答对，涵盖了五个领域：传记、公司、电影、天体对象和疾病。UNCLE数据集首次直接将短篇和长篇问答通过成对的问答和标准答案联系起来，旨在解决现有模型在长篇生成中无法准确表达不确定性的问题。数据集的创建过程包括从Wikidata中抽取实体、关键方面和知识库，然后生成长篇和短篇问题，并提供了标准答案。UNCLE数据集适用于评估和改进大型语言模型在长篇生成中表达不确定性的能力，有助于解决模型在缺乏足够知识时产生幻觉的问题。

提供机构：

复旦大学, 剑桥大学, 腾讯AI实验室

创建时间：

2025-05-23

原始信息汇总

数据集概述

基本信息

数据集名称：UNCLE
数据集地址：https://github.com/rhyang2021/UNCLE

数据集描述

该数据集详情页面未提供具体描述信息。

搜集汇总

数据集介绍

构建方式

UNCLE数据集的构建采用了多阶段、多领域的结构化方法。首先从Wikidata知识库中筛选五个核心领域（传记、企业、电影、天文对象和疾病）的实体，通过频率统计确定每个实体的关键属性作为问答维度。随后利用GPT-4生成4,000个长式问答实例和20,000个短式问答对，并通过人工验证确保问题覆盖关键属性和答案准确性。创新性地采用配对设计，使每个长式问题对应多个短式子问题，构建起长短式问答的黄金标准映射关系。

特点

该数据集具有三个显著特征：领域覆盖的多元性，涵盖人文、商业、艺术与科学等跨学科主题；评估维度的系统性，通过预定义关键属性确保生成内容的可比性；标注架构的创新性，首创长短式问答配对设计实现细粒度评估。特别设计了不确定性表达标注框架，包含确定性回答、不确定性表达和错误回答三类标签，并配套开发了事实准确性（FA）、不确定准确性（UA）等五项量化指标。

使用方法

使用UNCLE需遵循标准化评估流程：首先进行知识探测，通过多次采样确定模型的知识边界；随后生成长短式回答并标注不确定性表达；最后通过GPT-4辅助的事实核查系统进行三元分类。研究建议采用混合训练策略，结合短式问答的确定性训练（Short-DPO）和长式问答的不确定性对齐训练（Long-DPO），在保持70:30的混合比例时可获得最优的跨格式泛化性能。评估时需特别注意模型在未知知识场景下是否准确使用'不确定'等限定表达。

背景与挑战

背景概述

UNCLE（Uncertainty in Long-form Expressions）数据集由复旦大学、剑桥大学和腾讯AI实验室的研究团队于2025年提出，旨在评估大型语言模型（LLMs）在长文本生成中表达不确定性的能力。该数据集涵盖五个领域（传记、公司、电影、天文对象和疾病），包含4,000个长文本问答实例和20,000个短文本问答对，首次实现了长短文本问答的配对设计。UNCLE通过引入关键方面约束和新型评估指标，解决了现有研究在长文本不确定性表达评估上的空白，为提升模型的可信度和减少幻觉提供了重要基准。

当前挑战

UNCLE面临的挑战主要包括两方面：领域问题挑战和构建过程挑战。在领域问题方面，长文本生成中的不确定性表达具有开放性和多维度特性，模型需在覆盖多个关键方面的同时，准确识别并表达知识边界，而现有模型在此任务上表现不足（如未知事实的UUR低于10%）。构建过程中，数据集的创建需平衡长文本的开放性与评估的可比性，通过设计固定关键方面和人工验证确保数据质量。此外，标注过程中需处理多领域实体和复杂语义关系，对标注一致性和知识覆盖提出了较高要求。

常用场景

经典使用场景

UNCLE数据集在评估大型语言模型（LLMs）在长文本生成中表达不确定性的能力方面具有经典应用场景。该数据集通过提供跨五个领域的4k长文本问答实例和20k短文本问答对，为研究者提供了一个统一的测试平台，用于直接比较不同模型在长文本和短文本生成中表达不确定性的表现。

实际应用

在实际应用中，UNCLE数据集可用于优化LLMs在开放域问答、内容生成等场景中的表现。例如，在医疗咨询或法律建议生成中，模型可以通过UNCLE评估的机制，明确表达对不确定信息的谨慎态度，从而避免误导用户。此外，该数据集还可用于培训模型在长文本生成中更准确地识别和表达知识边界。

衍生相关工作

UNCLE数据集推动了多项相关研究的发展，包括Yang等人提出的两阶段训练框架LoGU和Band等人提出的语言校准方法。这些工作进一步探索了如何在长文本生成中实现不确定性表达的多层次量化。此外，UNCLE的评估指标也为后续研究提供了新的方法论基础，促进了LLMs可信度研究领域的进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集