Causal News Corpus

github2024-02-09 更新2024-05-31 收录

下载链接：

https://github.com/tanfiona/CausalNewsCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于标注新闻事件句子中的因果关系，包含两个子任务：因果事件分类和因果-效果-信号跨度检测。数据集中的句子被标记为因果或非因果，其中因果句子中的原因和效果跨度被明确标注。

This dataset is designed for annotating causal relationships within news event sentences. It encompasses two subtasks: causal event classification and cause-effect-signal span detection. Sentences in the dataset are labeled as either causal or non-causal, and the spans of cause and effect within causal sentences are explicitly annotated.

创建时间：

2022-01-05

原始信息汇总

数据集概述

数据集名称

Causal News Corpus (CNC)

数据集描述

Causal News Corpus专注于因果关系的识别和分析，包含两个主要子任务：

Subtask 1: Causal Event Classification
- 任务描述：判断事件句子是否包含因果意义。
- 数据集位置：data 文件夹，使用 V2 版本。
- 目标列：label
Subtask 2: Cause-Effect-Signal Span Detection
- 任务描述：识别因果句中对应于原因、效果或信号的连续跨度。
- 数据集位置：data 文件夹，使用 V2 版本。
- 目标列：causal_text_w_pairs

数据集使用

用于多个学术出版物，包括2023 IJCNLP-AACL、2023 CASE @ RANLP、2022 LREC和2022 CASE @ EMNLP。
支持两个共享任务的举办，即“Event Causality Identification with Causal News Corpus”。

引用信息

若使用此数据集，请引用以下文献：

Tan, Fiona Anting et al. (2023). "RECESS: Resource for Extracting Cause, Effect, and Signal Spans".
Tan, Fiona Anting et al. (2023). "Event Causality Identification - Shared Task 3, CASE 2023".
Tan, Fiona Anting et al. (2022). "The Causal News Corpus: Annotating Causal Relations in Event Sentences from News".
Tan, Fiona Anting et al. (2022). "Event Causality Identification with Causal News Corpus - Shared Task 3, CASE 2022".

搜集汇总

数据集介绍

构建方式

Causal News Corpus（CNC）数据集的构建基于对新闻事件句子中因果关系的标注。研究团队从抗议事件新闻中选取了3559个句子，并对其进行标注，判断是否包含因果关系。标注过程中，团队采用了专门设计的标注框架，确保能够捕捉到句子中的因果、效果和信号等关键元素。此外，数据集还通过跨数据集验证，如CausalTimeBank（CTB）和Penn Discourse Treebank（PDTB），以增强其通用性和可迁移性。

特点

Causal News Corpus（CNC）数据集的特点在于其专注于新闻文本中的因果关系识别，涵盖了因果事件分类和因果-效果-信号跨度检测两个子任务。数据集包含大量标注的因果句子，其中因果关系的标注不仅限于显式表达，还包括隐式因果关系。此外，数据集的标注框架允许在同一句子中同时标注多个因果关系，提供了丰富的语义信息。数据集的多样性和复杂性使其成为自然语言处理领域中因果关系研究的宝贵资源。

使用方法

Causal News Corpus（CNC）数据集的使用方法主要围绕两个子任务展开。对于因果事件分类任务，用户可以通过提供的训练和验证数据集，使用BERT等预训练模型进行训练和预测。数据集中的`label`列用于标注句子是否包含因果关系。对于因果-效果-信号跨度检测任务，用户可以使用提供的脚本进行训练和测试，标注的因果句子中的`causal_text_w_pairs`列用于识别因果关系的具体跨度。此外，数据集还支持K折交叉验证，以增强模型的鲁棒性。

背景与挑战

背景概述

Causal News Corpus（CNC）是一个专注于新闻文本中因果关系的标注数据集，旨在推动自然语言处理领域中对因果关系的理解与提取。该数据集由Fiona Anting Tan等研究人员于2022年首次发布，并在2023年进一步扩展和优化。CNC的核心研究问题在于识别新闻句子中是否存在因果关系，并进一步标注出因果关系的具体成分，包括原因、结果和信号词。该数据集在多个国际会议（如LREC、EMNLP、IJCNLP-AACL等）上被广泛引用，成为因果关系提取研究的重要资源。CNC的构建基于新闻事件句子，涵盖了3,559条标注数据，其中1,982条包含因果关系。通过提供高质量的标注数据，CNC为因果关系提取模型的开发与评估提供了坚实的基础，推动了从信息检索到自然语言理解等多个领域的研究进展。

当前挑战

Causal News Corpus在构建和应用过程中面临多重挑战。首先，因果关系的识别本身具有复杂性，尤其是在新闻文本中，因果关系可能隐含在复杂的句法结构和语义表达中，难以通过简单的规则或模型进行准确提取。其次，数据集的构建需要高质量的标注，而因果关系的标注标准尚未完全统一，不同标注者之间可能存在理解偏差，导致标注结果的不一致性。此外，CNC的标注范围仅限于句子级别，而现实中的因果关系可能跨越多个句子或段落，这限制了模型对长文本中因果关系的捕捉能力。在模型应用方面，尽管预训练语言模型（如BERT）在CNC上取得了较高的性能，但其在处理复杂因果关系时仍存在局限性，特别是在处理多义词、隐喻表达和跨语言场景时，模型的泛化能力有待进一步提升。

常用场景

经典使用场景

Causal News Corpus（CNC）数据集在自然语言处理（NLP）领域中被广泛应用于事件因果关系的识别与分析。该数据集通过标注新闻句子中的因果关系，为研究者提供了丰富的语料资源，特别是在事件因果分类和因果跨度检测任务中表现突出。经典的使用场景包括利用BERT等预训练模型进行因果句子分类，以及通过序列标注技术识别句子中的因果、效果和信号跨度。

解决学术问题

CNC数据集解决了自然语言处理中因果关系识别的关键问题。传统因果关系语料库多关注语言学层面的标注，而CNC则专注于事件句子中的因果关系，填补了这一领域的空白。通过提供大量标注数据，CNC帮助研究者开发更精确的因果关系提取模型，推动了因果推理和自然语言理解的研究进展。

衍生相关工作

CNC数据集催生了一系列相关研究，特别是在事件因果关系识别和因果跨度检测任务中。例如，2023年CASE共享任务中，多个团队基于CNC数据集开发了高效的因果关系提取模型，其中BoschAI团队在因果跨度检测任务中取得了72.79%的F1分数。此外，CNC还被用于跨领域迁移学习，验证了其在其他因果关系语料库（如CausalTimeBank和Penn Discourse Treebank）中的泛化能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集