WikiCausal

Name: WikiCausal
Creator: IBM研究院
Published: 2024-08-31 10:21:39
License: 暂无描述

arXiv2024-08-31 更新2024-09-06 收录

下载链接：

https://doi.org/10.5281/zenodo.7897996

下载链接

链接失效反馈

官方服务：

资源简介：

WikiCausal是由IBM研究院创建的一个用于因果知识图谱构建的语料库和评估框架。该数据集包含68,391篇与事件相关的维基百科文章，旨在从文本中提取因果关系，并将其结构化为知识图谱。数据集的创建过程包括从Wikidata中选择事件相关概念，并通过维基百科的“sitelinks”收集相关文章。该数据集主要应用于决策支持、事件预测等领域，旨在解决从文本中自动提取和验证因果关系的问题。

WikiCausal is a corpus and evaluation framework developed by IBM Research for causal knowledge graph construction. This dataset comprises 68,391 event-related Wikipedia articles, aiming to extract causal relationships from text and structure them into knowledge graphs. The dataset creation process involves selecting event-related concepts from Wikidata and collecting relevant articles via Wikipedia's "sitelinks". Primarily applied in domains such as decision support and event prediction, this dataset targets solving the challenges of automatically extracting and validating causal relationships from text.

提供机构：

IBM研究院

创建时间：

2024-08-31

搜集汇总

数据集介绍

构建方式

WikiCausal数据集的构建主要依托于维基百科和维基数据，从维基新闻文章中筛选出与事件相关联的概念，并收集这些概念对应的维基百科文章。这些文章经过处理后，被转换为纯文本格式，并附加了元数据，如标题、类别、信息框和章节标题等。这些数据被存储为JSONL格式的文件，每个文件包含文章内容、元数据和关联的事件概念。数据集的第一版包含了68,391篇文章，其中65,358篇文章包含文本内容，3,216个重定向页面，以及63,634个独特的文档概念。

特点

WikiCausal数据集的特点在于它为因果知识图的自动构建提供了丰富的文本资源，并包含了一个评估框架，用于评估因果知识提取的质量。数据集中的文章涵盖了广泛的事件相关概念，并且每个文章都关联了多个事件概念。评估框架利用维基数据中已有的因果关系来衡量提取方法的召回率，并通过大型语言模型来评估精确度，从而避免了对人工标注的依赖。

使用方法

使用WikiCausal数据集时，首先需要将数据集中的文本内容与事件概念进行关联。然后，可以采用多种方法来提取因果关系，例如使用序列标记方法、问答模型或基于规则的方法。提取出的因果关系对可以进一步通过实体链接技术链接到维基数据中的事件概念。最后，可以使用评估框架来评估提取的因果知识图的召回率和精确度。

背景与挑战

背景概述

WikiCausal数据集是近年来因果知识图谱构建领域的重要资源，旨在为因果分析、事件预测等应用提供支持。该数据集由IBM Research的Oktie Hassanzadeh等研究人员创建，于2024年8月31日发布。它包含来自维基百科的事件相关概念文章，旨在提取这些概念之间的因果关系。WikiCausal的创建填补了现有因果知识图谱评估框架的空白，为自动构建因果知识图谱的研究提供了重要的数据基础和评估工具。

当前挑战

WikiCausal数据集在构建和应用过程中面临多个挑战。首先，自动提取因果关系的任务非常具有挑战性，因为因果关系可能以多种形式隐式或显式地表达在文本中。其次，将因果关系的短语链接到事件概念的任务同样复杂，因为现有的实体链接方法主要针对命名实体而非事件概念。此外，WikiCausal数据集目前仅包含英文维基百科文章，未来需要扩展到多语言，以充分利用维基数据和维基百科的多语言特性。最后，因果知识提取方法的评估需要高效的评估框架，WikiCausal提出的评估方法利用大型语言模型来评估精度，但仍需进一步研究和改进以提高评估的准确性。

常用场景

经典使用场景

WikiCausal数据集主要用于构建通用的或特定领域的因果知识图谱。这些知识图谱能够进行因果分析和事件预测，并在不同领域有着广泛的应用。数据集通过从维基百科文章中提取事件概念之间的因果关系来实现这一目标。使用现有的因果关系在维基数据中测量召回率，并使用大型语言模型来避免手动或众包评估的需求。

衍生相关工作

WikiCausal数据集衍生了多项相关工作，包括ATOMIC和CausalNet等。这些工作将提取的因果知识结构化为网络，其中每个节点都是一个短语或文本描述。此外，WikiCausal还推动了使用因果关系的通用领域知识库（例如，维基数据）和因果知识图谱（KG）的研究。这些表示方法进一步促进了知识的推理，例如，用于预测。

数据集最近研究