concausal-news-corpus

Hugging Face2025-12-15 更新2025-12-16 收录

下载链接：

https://huggingface.co/datasets/thagen/concausal-news-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Concausal News Corpus是一个用于因果关系提取的英文新闻语料库，包含三个主要任务配置：因果关系检测（区分因果和非因果文本）、因果候选提取（识别文本中的因果实体）和因果关系识别（识别实体间的因果关系类型）。数据集规模在1K到10K之间，适用于文本分类和标记分类任务。该数据集基于论文《Investigating Counterclaims in Causality Extraction from Text》创建，可用于研究文本中的因果关系提取。

创建时间：

2025-12-02

原始信息汇总

Concausal News Corpus 数据集概述

基本描述

数据集名称: Concausal News Corpus
许可证: CC BY 4.0
主要任务类别: 文本分类、令牌分类
语言: 英语
多语言性: 单语
数据规模: 1K < n < 10K
标签: 因果关系

数据集配置

数据集包含三个独立的配置，每个配置对应一个特定的任务。

1. 因果关系检测

配置名称: causality detection
任务类型: 文本分类
数据文件:
- train: https://huggingface.co/datasets/thagen/concausal-news-corpus/resolve/main/causality-detection/train.parquet
特征:
- index (字符串): 索引
- text (字符串): 文本
- label (类别标签): 标签，0 代表“非因果”，1 代表“因果”
评估指标: 准确率、精确率、召回率、F1分数

2. 因果候选抽取

配置名称: causal candidate extraction
任务类型: 令牌分类
数据文件:
- train: https://huggingface.co/datasets/thagen/concausal-news-corpus/resolve/main/causal-candidate-extraction/train.parquet
特征:
- index (字符串): 索引
- text (字符串): 文本
- entity (序列): 实体序列
评估指标: 准确率、精确率、召回率、F1分数

3. 因果关系识别

配置名称: causality identification
任务类型: 文本分类
数据文件:
- train: https://huggingface.co/datasets/thagen/concausal-news-corpus/resolve/main/causality-identification/train.parquet
特征:
- index (字符串): 索引
- text (字符串): 文本
- relations (列表): 关系列表，包含以下字段：
  - relationship (类别标签): 关系类型，0 代表“无关系”，1 代表“正向因果”，2 代表“反向因果”
  - first (字符串): 第一个实体
  - second (字符串): 第二个实体
评估指标: 准确率、精确率、召回率、F1分数

引用格式

bib @article{hagen:2025, title = {Investigating {{Counterclaims}} in {{Causality Extraction}} from {{Text}}}, author = {Hagen, Tim and Deckers, Niklas and Wolter, Felix and Scells, Harrisen and Potthast, Martin}, year = 2025, journal = {CoRR}, volume = {abs/2510.08224}, eprint = {2510.08224}, doi = {10.48550/ARXIV.2510.08224}, archiveprefix = {arXiv} }

搜集汇总

数据集介绍

构建方式

在因果推理的自然语言处理领域，Concausal News Corpus 的构建体现了严谨的学术方法。该数据集源自新闻文本，通过系统性的标注流程创建了三个相互关联的子任务配置。其构建核心在于对文本中的因果关系进行多层次解析：首先识别句子是否包含因果陈述，继而提取潜在的因果实体对，最终精细区分正向因果与反向因果（即反事实因果）关系。数据以Parquet格式存储，确保了高效访问与处理，为模型训练与评估提供了结构化的基础。

特点

Concausal News Corpus 的显著特点在于其针对因果关系的细粒度划分与多任务架构。数据集不仅包含基础的因果性检测标签，更创新性地引入了“procausal”与“concausal”的区分，这直接对应研究中对正向主张与反向主张（反诉）的探索，深化了因果关系理解的维度。三个子任务——因果检测、因果候选提取及因果识别——构成了一个渐进的分析体系，支持从二分类到序列标注再到细粒度关系分类的完整研究流程，且均配备了标准的准确率、精确率、召回率和F1值评估指标。

使用方法

为便利学术研究与应用开发，该数据集通过Hugging Face的`datasets`库提供了极为简洁的加载方式。研究者可根据具体任务目标，分别指定配置名称来加载相应数据。例如，进行因果检测时使用`"causality detection"`配置，进行因果实体提取时使用`"causal candidate extraction"`，而进行精细的因果关系分类时则使用`"causality identification"`。这种模块化的设计使得用户能够精准地获取与特定实验目标相匹配的数据子集，并直接接入主流的机器学习工作流进行模型训练与性能评估。

背景与挑战

背景概述

在自然语言处理领域，因果关系提取是理解文本深层语义结构的关键任务，对于知识图谱构建、事件推理及科学发现具有重要价值。Concausal News Corpus 由 Webis 研究团队于2025年创建，其核心研究聚焦于从新闻文本中识别因果主张及其对立面（反因果主张），旨在推动对复杂因果关系的细粒度建模。该数据集的构建基于学术论文《Investigating Counterclaims in Causality Extraction from Text》，通过引入“因果检测”、“因果候选提取”及“因果识别”三个子任务，为探索文本中因果关系的双向性提供了新颖的语料资源，对提升机器在论证分析和事实核查方面的能力具有显著影响力。

当前挑战

该数据集致力于解决因果关系提取中的核心挑战，即区分文本中的因果主张与反因果主张，这一任务要求模型不仅识别因果关系存在与否，还需理解因果方向的微妙对立，对语义推理的深度提出了更高要求。在构建过程中，挑战主要源于新闻文本中因果表达的隐晦性与多样性，例如隐喻、间接叙述及多事件交织，使得标注者需具备深厚的语言学与领域知识以确保标注一致性。此外，平衡因果与反因果实例的数量、定义清晰的关系类别边界，亦是构建高质量、低噪声数据集的难点所在。

常用场景

经典使用场景

在自然语言处理领域，因果关系抽取是理解文本深层语义的关键任务。Concausal News Corpus 作为专注于新闻文本的因果语料库，其经典使用场景在于训练和评估模型进行因果检测、候选实体抽取及因果识别。该数据集通过标注因果与反因果关系，为研究者提供了丰富的监督信号，使得模型能够学习区分文本中复杂的因果逻辑，尤其在新闻叙事中识别事件间的因果链条，推动了因果推理任务的精细化发展。

衍生相关工作

基于 Concausal News Corpus，研究者已衍生出多项经典工作，主要集中在因果抽取模型的优化与跨领域迁移。例如，结合预训练语言模型如 BERT 或 RoBERTa，开发了端到端的因果检测框架，显著提升了准确率与召回率；同时，该数据集也激发了反因果推理任务的研究，推动了对抗性训练与多任务学习方法的创新。这些工作进一步扩展了因果抽取在医疗、法律等领域的应用潜力，形成了活跃的研究脉络。

数据集最近研究