ComFact

Name: ComFact
Creator: 自然语言处理实验室，瑞士洛桑联邦理工学院，瑞士
Published: 2022-10-23 17:30:39
License: 暂无描述

arXiv2022-10-23 更新2024-06-21 收录

下载链接：

https://github.com/Silin159/ComFact

下载链接

链接失效反馈

官方服务：

资源简介：

ComFact数据集由瑞士洛桑联邦理工学院的自然语言处理实验室创建，包含约293,000条常识三元组的相关性注释，覆盖四种风格多样的对话和叙事数据集。该数据集旨在通过提供丰富的上下文相关常识知识，推动自然语言处理系统在理解复杂叙事方面的能力。数据集内容包括对话和故事片段，涉及大量的常识推理和理解。创建过程中，研究团队利用了先进的ATOMIC2020知识图谱，并通过众包方式进行相关性注释。ComFact数据集的应用领域包括对话生成、故事理解和问答系统，旨在解决现有系统在常识推理和上下文理解方面的不足。

ComFact dataset was created by the Natural Language Processing Laboratory at École Polytechnique Fédérale de Lausanne (EPFL), Switzerland. It contains approximately 293,000 relevance annotations for commonsense triples, covering four diverse dialogue and narrative datasets. This dataset aims to advance the capability of natural language processing systems in understanding complex narratives by providing rich contextually relevant commonsense knowledge. The dataset includes dialogues and story fragments, which involve extensive commonsense reasoning and comprehension tasks. During the creation process, the research team utilized the state-of-the-art ATOMIC2020 knowledge graph and conducted relevance annotations via crowdsourcing. The application scenarios of the ComFact dataset include dialogue generation, story comprehension and question answering systems, with the goal of addressing the shortcomings of existing systems in commonsense reasoning and contextual comprehension.

提供机构：

自然语言处理实验室，瑞士洛桑联邦理工学院，瑞士

创建时间：

2022-10-23

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建能够链接情境化常识知识的数据集面临诸多挑战。ComFact数据集的构建过程首先从四个风格各异的对话与叙事语料库中采样叙事片段，并基于先进的常识知识图谱ATOMIC2020，通过显式模式匹配与隐式嵌入相似度匹配两种方法，初步链接潜在相关的常识三元组候选集。随后，采用精细化的众包标注流程，通过多轮上下文验证机制，对候选事实进行情境相关性评估，最终标注出约29.3万条包含四种链接类型（RPA、RPP、RPF、IRR）的高质量常识事实链接数据。

特点

ComFact数据集的核心特点在于其深度情境化与细粒度标注。该数据集不仅覆盖了对话与故事叙述中的多样化语境，还通过多轮验证机制，精确区分了常识事实与当前陈述、过去语境及未来语境之间的动态关联。数据集中包含了显式与隐式链接的事实，并保留了标注者之间的分歧记录，以反映常识链接中固有的模糊性。此外，数据集中的事实链接形成了复杂的图结构，蕴含了多跳推理链，为研究常识推理提供了丰富的结构化信息。

使用方法

ComFact数据集主要用于训练与评估常识事实链接模型，以提升自然语言处理系统在对话生成、故事理解等任务中的知识检索能力。研究者可将叙事上下文与候选常识三元组拼接，输入预训练语言模型进行二分类，预测事实的情境相关性。数据集支持基于不同上下文窗口（如仅当前及过去语境、完整语境）的实验设置，并可进一步用于研究模型的跨领域泛化能力。此外，经ComFact训练的链接模型可应用于下游任务，如通过过滤生成式常识知识来增强对话响应生成的质量与相关性。

背景与挑战

背景概述

ComFact数据集由瑞士洛桑联邦理工学院、艾伦人工智能研究所及索尼集团的研究团队于2022年共同构建，旨在解决自然语言处理中情境化常识知识链接的核心问题。该数据集以ATOMIC2020知识图谱为基础，整合了对话与叙事文本中的约29.3万条情境相关性标注，推动了常识推理与知识增强模型的发展。其创新性在于首次系统化定义了常识事实链接任务，强调了情境关联性、隐含性与歧义性三大挑战，为提升对话生成、故事理解等下游任务的性能提供了关键数据支撑。

当前挑战

ComFact所针对的常识事实链接任务面临多重挑战：在领域层面，模型需精准识别与特定情境相关的常识知识，避免传统启发式方法导致的噪声检索；在构建过程中，标注者需处理知识的情境化差异、隐含关联的捕捉以及不同标注者之间的主观歧义。具体而言，数据收集需通过多轮人工验证区分事实的即时相关性、历史依赖性与未来指向性，同时应对知识图谱中实体与关系的复杂语义映射，确保标注结果兼具一致性与细粒度。

常用场景

经典使用场景

在自然语言处理领域，ComFact数据集被广泛用于评估和提升常识知识链接模型的性能。该数据集通过标注对话和叙事文本中情境相关的常识三元组，为研究者提供了衡量模型在复杂上下文环境下准确检索常识知识能力的基准。其经典应用场景包括训练神经网络模型，如基于BERT、RoBERTa等预训练语言模型的分类器，以区分给定上下文中常识事实的相关性，从而推动常识增强型NLP系统的发展。

实际应用

在实际应用中，ComFact数据集训练的模型可显著改善基于常识的对话系统和故事生成系统的性能。例如，在 empathetic dialogue response generation 任务中，利用ComFact优化的知识检索器能够过滤无关常识，使生成回复更加贴合上下文且富有同理心。此外，该数据集还可用于增强问答系统、叙事理解等需要深层世界知识推理的应用，通过提供情境化常识知识来提升系统的人类化交互能力。

衍生相关工作

ComFact数据集催生了一系列围绕常识知识链接的衍生研究。例如，基于该数据集的实验推动了如DeBERTa等先进语言模型在事实链接任务上的优化，并启发了跨知识图谱泛化能力的探索。相关经典工作包括将ComFact与COMET等知识生成模型结合，以提升生成知识的上下文质量；同时，该数据集也为研究多跳推理链、知识图谱路径挖掘等复杂推理任务提供了数据支持，促进了常识推理与神经符号整合方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集