Chinese Atomic Claim Decomposition Dataset (CACDD)
收藏arXiv2024-10-16 更新2024-10-18 收录
下载链接:
https://github.com/FBzzh/CACDD
下载链接
链接失效反馈官方服务:
资源简介:
Chinese Atomic Claim Decomposition Dataset (CACDD) 是一个用于长篇回答验证的声明分解基准数据集,由中国科学院计算技术研究所创建。该数据集基于WebCPM数据集,并增加了专家注释以确保高质量。CACDD包含500个人工注释的问题-回答对,共计4956个原子声明。数据集的创建过程包括句子分解、句子分类和原子声明分解三个步骤,旨在解决长篇回答中的事实验证问题,特别是在大语言模型生成的回答中识别和分解可验证的声明。
Chinese Atomic Claim Decomposition Dataset (CACDD) is a benchmark dataset for claim decomposition in long-form answer verification, developed by the Institute of Computing Technology, Chinese Academy of Sciences. This dataset is built upon the WebCPM dataset, with expert annotations added to ensure high data quality. CACDD contains 500 manually annotated question-answer pairs, totaling 4956 atomic claims. The dataset construction process includes three steps: sentence decomposition, sentence classification, and atomic claim decomposition, aiming to address the fact verification problem in long-form answers, particularly for identifying and decomposing verifiable claims from responses generated by large language models (LLMs).
提供机构:
中国科学院计算技术研究所
创建时间:
2024-10-16
原始信息汇总
CACDD 数据集概述
数据来源
- 数据集基于 WebCPM 数据集构建。
数据格式
- question: 开放领域的问题。
- answer: RAG 生成的长篇回答。
- sentence_classification: 从回答中提取的句子,并分类为事实(fact-1)、观点(opinion-2)、指令(instruction-3)和其他(other-4)。
- atomic_claim: 从上述事实句子中提取的原子声明。
搜集汇总
数据集介绍

构建方式
Chinese Atomic Claim Decomposition Dataset (CACDD) 的构建基于 WebCPM 数据集,并通过专家注释以确保数据的高质量。该数据集包含 500 对人工注释的问题-答案对,共计 4956 个原子声明。构建过程中,首先从 WebCPM 数据集中选取数据,随后通过人工注释流程进行处理,包括句子分解、句子分类和原子声明分解。这一流程确保了每个声明的上下文独立性和可验证性,从而为长篇答案验证任务提供了高质量的数据基础。
特点
CACDD 数据集的主要特点在于其专注于长篇答案中的原子声明分解,这在现有研究中较少涉及。数据集中的每个声明都经过精心注释,确保其不可分割性、语义完整性、可验证性和上下文独立性。此外,CACDD 提供了丰富的上下文信息,有助于注释者在分解过程中进行指代消解。数据集的公开可用性也为未来的研究提供了宝贵的资源。
使用方法
CACDD 数据集适用于长篇答案验证任务中的原子声明分解研究。研究者可以利用该数据集进行零样本、少样本和微调实验,以评估和提升大型语言模型在声明分解任务中的表现。数据集的注释流程和定义为研究者提供了明确的指导,有助于开发新的分解方法和模型。此外,数据集的公开代码和数据使得研究结果具有可重复性,进一步推动了该领域的研究进展。
背景与挑战
背景概述
近年来,大型语言模型(LLMs)在自然语言处理(NLP)领域的多个方面展示了卓越的性能,特别是在复杂的长篇问答任务中。然而,这些模型在生成内容时常常出现与事实不符的‘幻觉’问题,这不仅影响了模型的可靠性,也限制了其在高风险、高敏感性任务中的应用。为了解决这一问题,研究人员提出了多种验证生成内容可信度的方法,但这些方法大多忽略了识别和分解响应中的声明或陈述的重要性。为此,中国科学院计算技术研究所的张志豪、范一星、张如青和郭嘉峰等人于2024年创建了中文原子声明分解数据集(CACDD),旨在通过专家注释确保数据的高质量,并提供一个包含500个人工注释问答对的集合,总计4956个原子声明。该数据集的提出填补了现有研究的空白,为未来的研究提供了宝贵的资源。
当前挑战
CACDD数据集面临的挑战主要集中在两个方面。首先,识别和分解长篇响应中的原子声明是一个复杂且具有挑战性的任务,因为长篇响应通常包含多个声明,且这些声明之间存在复杂的共指关系。其次,数据集的构建过程中,如何确保注释的高质量和一致性也是一个重要问题。此外,尽管现有的LLMs在处理这一任务时表现出了一定的能力,但实验结果表明,即使是先进的GPT-3.5模型,其性能与人类水平仍有显著差距,这表明在原子声明分解任务上,LLMs仍有很大的改进空间。
常用场景
经典使用场景
在自然语言处理领域,Chinese Atomic Claim Decomposition Dataset (CACDD) 主要用于长篇回答验证任务中的声明分解。该数据集通过识别和分解长篇回答中的原子声明,帮助提升大语言模型(LLMs)生成内容的可验证性和事实性。具体而言,CACDD 通过人工标注的方式,将长篇回答分解为多个可验证的原子声明,从而为后续的事实验证提供基础。
解决学术问题
CACDD 数据集解决了大语言模型在生成长篇回答时常见的‘幻觉’问题,即生成内容与事实不符的情况。通过将复杂的长篇回答分解为原子声明,CACDD 提供了一种有效的解决方案,使得每个声明都可以独立验证,从而提高了回答的整体可信度和事实性。这一方法不仅提升了模型的可靠性,还为长篇回答验证领域的研究提供了新的方向。
衍生相关工作
基于 CACDD 数据集,研究者们开发了多种声明分解和验证的方法,如基于词汇解析的方法和基于大语言模型提示的方法。这些方法通过不同的技术路径,尝试提升声明分解的准确性和效率。此外,CACDD 还启发了在长篇回答验证领域的多项研究,如 FactScore 和 Factcheck-GPT,这些工作通过分解和验证生成的回答,进一步提升了大语言模型的事实准确性。
以上内容由遇见数据集搜集并总结生成



