DIALFACT

Name: DIALFACT
Creator: 语言技术研究所，卡内基梅隆大学†
Published: 2022-03-25 01:26:00
License: 暂无描述

arXiv2022-03-25 更新2024-06-21 收录

下载链接：

https://github.com/salesforce/DialFact

下载链接

链接失效反馈

官方服务：

资源简介：

DIALFACT是一个基于Wizard-of-Wikipedia数据集构建的对话事实核查基准数据集，包含22,245条人工标注的对话声明，每条声明都配有来自维基百科的证据片段。该数据集旨在解决对话中事实核查的挑战，特别是处理非正式语言、指代和检索歧义等问题。DIALFACT包含三个子任务：可验证声明检测、证据检索和声明验证，旨在预测对话响应是否应被视为可验证声明，并找到相关证据，最终预测声明是被支持、反驳还是信息不足。此数据集不仅包含人工编写的声明，还通过操作如矛盾、填充和替换创建了合成声明，由合格的众包工作者进行标注，以提高对话系统的事实准确性和可信度。

DIALFACT is a conversational fact-checking benchmark dataset built upon the Wizard-of-Wikipedia dataset. It contains 22,245 manually annotated conversational claims, with each claim paired with evidence snippets sourced from Wikipedia. This dataset aims to address the challenges of fact-checking in conversations, particularly those involving informal language, reference resolution and retrieval ambiguity. DIALFACT includes three subtasks: verifiable claim detection, evidence retrieval and claim verification, which are designed to predict whether a conversational response should be regarded as a verifiable claim, retrieve relevant evidence, and finally determine whether a claim is supported, refuted or lacks sufficient information. In addition to manually written claims, this dataset also includes synthetic claims created through operations such as contradiction, padding and substitution, which are annotated by qualified crowdworkers to enhance the factual accuracy and credibility of conversational systems.

提供机构：

语言技术研究所，卡内基梅隆大学†

创建时间：

2021-10-16

搜集汇总

数据集介绍

构建方式

在对话领域，构建一个可靠的事实核查基准面临独特挑战，DIALFACT数据集以Wizard of Wikipedia对话数据为基础，通过自动生成与人工撰写相结合的方式构建。自动生成部分运用了否定转换、实体替换、掩码填充及语言模型生成等技术，旨在创建多样且具有挑战性的测试样本；人工撰写部分则由众包工作者根据指定标签生成符合对话语境的响应。所有样本均经过多轮严格标注，由标注者判断其可验证性、检索相关维基百科证据并分类为支持、反驳或信息不足三类，确保了数据的高质量与平衡性。

使用方法

DIALFACT数据集主要作为对话事实核查任务的评估基准，支持模型在三个子任务上的性能测试。研究者可首先利用数据集进行可验证声明检测，区分响应是否携带可验证事实信息；随后进行证据检索，从维基百科中定位相关证据片段；最终完成声明验证，将响应分类为支持、反驳或信息不足。数据集亦可用于训练弱监督模型，通过其提供的合成数据增强模型在对话语境下的推理与核查能力，推动对话系统在事实一致性方面的进步。

背景与挑战

背景概述

随着生成式对话模型的迅猛发展，自动生成的对话内容中常伴随事实性错误与幻觉信息，加剧了网络虚假信息的传播风险。为应对这一挑战，卡内基梅隆大学与Salesforce AI Research的研究团队于2022年联合推出了DIALFACT数据集，旨在构建对话场景下的自动事实核查基准。该数据集以维基百科为知识源，包含22,245条标注的对话主张及其对应证据，核心研究聚焦于可验证主张检测、证据检索与主张验证三个子任务，填补了对话领域事实核查公开数据集的空白，为提升对话系统的可信度与一致性提供了关键评估工具。

当前挑战

DIALFACT所针对的对话事实核查任务面临多重挑战。在领域问题层面，对话文本具有高度的非正式性，充斥着口语化表达、指代省略与语义模糊性，这使得传统基于正式文本（如新闻）训练的事实核查模型难以有效处理。在数据集构建过程中，挑战主要体现在两方面：一是需要从对话的稀疏事实内容中精准区分个人观点与可验证事实；二是证据检索需克服指代消解与上下文依赖的复杂性，确保检索到的维基百科片段能够准确支撑或反驳对话主张。这些挑战共同构成了对话事实核查技术发展的核心瓶颈。

常用场景

经典使用场景

在对话系统中，事实核查是确保信息准确性的关键环节。DIALFACT数据集专为对话领域的事实核查任务设计，其经典使用场景包括评估和提升对话代理在生成回应时的真实性。该数据集通过结合对话上下文与维基百科证据，支持对机器生成或人工撰写的对话回应进行系统性验证，广泛应用于知识驱动的对话系统开发中，以检测和纠正对话中的错误信息。

解决学术问题

DIALFACT数据集解决了对话领域事实核查的多个核心学术问题。首先，它针对对话中非正式语言、指代消解和检索模糊性等独特挑战，提供了结构化基准。其次，数据集通过可验证声明检测、证据检索和声明验证三个子任务，推动了模型在复杂对话环境下的鲁棒性研究。其意义在于填补了对话事实核查领域的空白，为后续研究提供了标准化评估框架，促进了更可靠对话系统的发展。

实际应用

在实际应用中，DIALFACT数据集可用于构建自动化事实核查工具，以应对在线对话中错误信息的传播。例如，在社交媒体平台或客户服务聊天机器人中，该系统能够实时检测对话回应的真实性，并提供基于证据的修正建议。此外，该数据集还可用于教育领域，帮助学生或公众识别和验证对话中的事实性内容，从而提升信息素养并减少误导性信息的负面影响。

数据集最近研究