FineDialFact
收藏arXiv2025-08-08 更新2025-08-12 收录
下载链接:
https://g ineDialFaci
下载链接
链接失效反馈官方服务:
资源简介:
FineDialFact是一个细粒度对话事实验证的基准数据集,它通过验证从对话响应中提取的原子事实来支持细粒度的事实验证。该数据集基于公开可用的对话数据集构建,包括OpendialKG和HybriDialogue。数据集包含1000个样本,每个样本都包含对话响应、原子事实分割和事实标签。该数据集旨在解决对话系统中的幻觉检测问题,并支持细粒度的事实验证研究。
提供机构:
伦敦玛丽女王大学,斯洛文尼亚约瑟夫·斯特凡研究所
创建时间:
2025-08-08
搜集汇总
数据集介绍
构建方式
在对话系统领域,确保生成内容的真实性是当前研究的核心挑战之一。FineDialFact数据集的构建过程体现了对这一问题的系统性探索。研究团队基于OpenDialKG和HybriDialogue两个公开对话数据集,通过大语言模型生成包含真实与虚构信息的混合响应。采用原子事实分割技术将复杂响应分解为最小可验证单元,并利用Contriever-MS MARCO检索系统从维基百科获取外部知识。最终通过严格的人工标注流程,由专业标注员对每个原子事实进行三类标签标注(支持、反驳、信息不足),确保数据质量。
特点
该数据集在对话事实验证领域具有显著特色。其核心创新在于细粒度的验证维度——不同于传统研究对整段响应的粗粒度判断,FineDialFact将每个响应分解为多个原子事实进行独立验证。数据集包含1000个精心标注的样本,覆盖开放域和信息寻求型对话场景。特别值得注意的是,样本中支持、反驳和信息不足三类标签的平衡分布(38.1%、9.7%、52.2%)反映了真实对话的复杂性,为模型评估提供了多维度的测试基准。
使用方法
使用该数据集需要遵循系统化的验证流程。研究者首先需将待测对话响应分割为原子事实单元,随后通过语义检索获取相关外部知识。验证阶段可采用三种典型方法:零样本思维链提示通过添加推理指令激发模型潜力;少样本思维链提示利用标注示例引导模型推理;思维链蒸馏则将大模型的推理能力迁移至小模型。评估指标包含精确率、召回率等传统指标,以及考虑类别不平衡的几何平均数和衡量人工一致性的Cohen's Kappa系数,确保全面评估模型性能。
背景与挑战
背景概述
FineDialFact是由伦敦玛丽女王大学的研究团队于2025年提出的细粒度对话事实核查基准数据集,旨在解决大语言模型在对话系统中产生的幻觉问题。该数据集基于公开对话数据集OpendialKG和HybriDialogue构建,通过将对话响应拆分为原子事实进行独立验证,首次系统性地实现了对话系统事实性的细粒度评估。其创新性在于突破了传统粗粒度验证的局限,为自然语言处理领域提供了更精准的对话事实核查方法论,对提升对话系统的可信度具有重要意义。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决混合型事实核查难题,即单个对话响应可能同时包含可验证、不可验证及错误事实的复杂场景,现有方法对这类复合型事实的识别精度不足;在构建技术层面,存在原子事实拆分的一致性控制难题,需平衡语义完整性与拆分颗粒度,同时面临知识检索的覆盖度瓶颈,依赖单一维基百科知识源可能导致未覆盖领域的验证失效。实验表明即使在最优CoT方法下,开放域对话的F1值仅达0.75,印证了细粒度验证的固有复杂性。
常用场景
经典使用场景
FineDialFact数据集在自然语言处理领域中被广泛用于细粒度对话事实验证任务。该数据集通过将对话响应拆分为原子事实,为研究者提供了一个评估大语言模型生成内容事实准确性的标准化平台。在对话系统开发过程中,研究人员利用该数据集测试模型在复杂对话场景中保持事实一致性的能力,特别是在处理混合了正确、错误和无法验证的事实的对话响应时。
实际应用
在实际应用中,FineDialFact被用于提升智能客服、虚拟助手等对话系统的可靠性。内容审核平台利用该数据集训练模型识别对话中的虚假信息,新闻机构则将其应用于事实核查系统以验证采访记录的真实性。教育领域也采用该技术来评估教学对话机器人的回答准确性。
衍生相关工作
基于FineDialFact数据集,研究者开发了多种创新方法。Chen等人提出了结合思维链推理的验证框架,显著提升了事实核查性能。Li团队开发的知识蒸馏方法使小型模型也能获得优秀的事实验证能力。此外,该数据集还催生了多项关于对话幻觉分类和细粒度评估指标的研究工作,推动了整个领域的发展。
以上内容由遇见数据集搜集并总结生成



