Causal News Corpus (CNC)

Name: Causal News Corpus (CNC)
Creator: 新加坡国立大学数据科学研究所
Published: 2022-11-22 18:34:09
License: 暂无描述

arXiv2022-11-22 更新2024-06-21 收录

下载链接：

https://github.com/tanfiona/CausalNewsCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

Causal News Corpus (CNC) 是由新加坡国立大学数据科学研究所等机构的研究人员创建的一个包含869篇新闻文档和3559个英语句子的数据集，这些句子均标注了因果信息。CNC数据集基于从多个来源和时间段随机抽样的新闻文章构建，旨在支持因果文本挖掘任务。数据集分为训练集、测试集和开发集，用于支持因果事件分类和因果-效果-信号跨度检测等任务。CNC数据集的应用领域包括自然语言处理中的摘要生成、预测、问答、推理和理解等。

Causal News Corpus (CNC) was created by researchers from institutions including the Institute of Data Science at the National University of Singapore and other affiliated research bodies. It comprises 869 news documents and 3559 English sentences, all annotated with causal information. Constructed from news articles randomly sampled across multiple sources and time periods, the CNC dataset is developed to support causal text mining tasks. The dataset is split into training, test, and development subsets to support tasks such as causal event classification and cause-effect-signal span detection. Its application areas include summarization, prediction, question answering, reasoning, understanding, etc. in the field of natural language processing.

提供机构：

新加坡国立大学数据科学研究所

创建时间：

2022-11-22

搜集汇总

数据集介绍

构建方式

在事件因果关系的自然语言处理研究中，Causal News Corpus（CNC）的构建体现了严谨的学术规范。该数据集源自多语言抗议新闻检测项目，从869篇新闻文档中系统抽取了3,559个英文事件句子。标注流程采用专家迭代标注模式，由五位标注员和一位策展人依据融合PDTB-3语言学框架与事件因果定义的标注规范，通过六轮标注迭代持续优化指南。每个句子均经过至少两位标注员独立标注，采用因果二值分类体系，最终形成1,957个因果句与1,602个非因果句的平衡语料，标注一致性达到34.99%的Krippendorff's Alpha系数。

使用方法

该数据集为因果文本挖掘研究提供了多维度应用路径。研究者可直接采用其3,248句训练集与311句测试集进行因果句分类模型开发，基于BERT的基准模型已取得81.20%的F1分数。语料库展现出卓越的跨数据集迁移能力，在PDTB-3与CausalTimeBank上的迁移实验显示其具备连接事件因果与语言学因果研究的桥梁作用。此外，CNC可作为预训练基础模型，经微调后能使PDTB-3分类F1提升0.74%、CTB提升1.27%。数据集已公开并提供标准分割，支持因果关系抽取、因果问答生成等下游自然语言理解任务。

背景与挑战

背景概述

在自然语言处理领域，因果关系的自动识别是深化语义理解与推理能力的关键挑战。Causal News Corpus（CNC）由新加坡国立大学数据科学研究所等国际研究团队于2022年构建，旨在填补事件因果关系标注资源的空白。该数据集从多语言抗议新闻语料中精选了3,559个事件句子，并采用融合语言学规则与事件因果定义的标注框架，对句子是否包含因果关系进行二元标注。CNC不仅推动了因果文本挖掘技术的发展，还为跨数据集模型迁移提供了桥梁，显著提升了事件因果关系研究的可比较性与实用性。

当前挑战

CNC致力于解决事件因果关系识别这一核心领域问题，其挑战在于如何准确捕捉语言中多样且隐晦的因果表达，包括非从句结构的论元与无显式连接词的隐含关系。在构建过程中，研究团队面临标注一致性的难题，由于任务涉及深层的认知与语义理解，专家标注者需经过多轮迭代训练与指南修订，方能达到可接受的标注间一致性。此外，数据集的跨句因果关系缺失以及与非专家众包标注的显著性能差距，进一步凸显了该任务在标注质量与模型泛化方面的复杂性。

常用场景

经典使用场景

在自然语言处理领域，事件因果关系的自动识别是理解文本深层语义的关键任务。Causal News Corpus（CNC）作为专门标注新闻事件句子中因果关系的语料库，其最经典的使用场景在于为基于深度学习的因果句子分类模型提供训练与评估基准。该数据集通过精细标注的3559个新闻事件句子，支持研究者构建和验证神经网络模型，例如基于BERT的预训练语言模型在此数据集上实现了81.20%的F1分数，显著推动了事件因果关系自动检测技术的发展。

解决学术问题

CNC有效解决了事件因果关系标注中存在的若干学术难题。传统因果语料库往往局限于显式关系或基于子句的论元标注，而CNC融合了PDTB-3的语言学规则与事件因果标注框架，支持更细粒度的论元标注，包括名词短语和动词短语等非子句结构。这一创新不仅弥合了事件因果语料与语言学因果语料之间的差异，还为隐式因果关系的识别提供了丰富资源，显著提升了模型在复杂语言构造下的泛化能力与可迁移性。

实际应用

在实际应用层面，CNC为多领域文本挖掘任务提供了坚实基础。该数据集源自多语言抗议新闻检测数据，其标注的因果关系可直接应用于社会政治事件分析、新闻内容理解与自动摘要生成。例如，在舆情监控系统中，基于CNC训练的模型能够自动识别新闻报道中事件间的因果链条，辅助决策者理解社会动态的成因与影响。此外，CNC还可作为预训练数据集，提升模型在医疗、金融等领域因果推理任务中的表现，体现了其跨领域的实用价值。

数据集最近研究