WikiCausal

github2023-06-14 更新2024-05-31 收录

下载链接：

https://github.com/IBM/wikicausal

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于因果知识图谱构建的评估，包含评估脚本和结果，数据集格式为jsonl，每行是一个包含页面内容、元数据和相关事件概念的JSON对象。

This dataset is designed for the evaluation of causal knowledge graph construction. It includes evaluation scripts and results, with the dataset formatted in JSONL (JSON Lines). Each line represents a JSON object containing page content, metadata, and related event concepts.

创建时间：

2023-05-12

原始信息汇总

数据集概述

数据集名称

WikiCausal: Corpus and Task for Evaluation of Causal Knowledge Graph Construction

数据集描述

WikiCausal数据集用于评估因果知识图谱构建，包含评估脚本及评估结果。

数据集格式

格式：jsonl
每行内容：JSON对象，包含页面内容、元数据及关联的事件概念。

数据集字段

id: 维基百科页面标识符
title: 维基百科页面标题
url: 维基百科页面URL
document_concept: 与文档关联的Wikidata概念，包含QID及所有标签，用于因果关系提取
text: 维基百科文章的完整文本内容，用于因果知识提取
first_section: 文章的第一部分，常包含关键因果知识摘要
categories: 页面分类列表，有助于识别页面主题
infobox: 结构化信息框字段及值
headings: 维基百科页面的章节标题
event_concepts: 与页面关联的顶级事件概念集合，为document_concept的超类
timelines: 部分页面包含描述事件序列的时间线部分，可用于因果知识挖掘

评估框架

召回评估脚本：scripts/recall.py
精确度评估脚本：scripts/precision.py
评估所需数据：data/
评估结果：
- 召回结果版本1：results/recall-v1.md
- 精确度结果版本1：results/precision-v1.md

数据集可用性

数据集存储位置：Zenodo
DOI：10.5281/zenodo.7897996

搜集汇总

数据集介绍

构建方式

WikiCausal数据集的构建基于维基百科的文档内容，通过提取与因果知识相关的信息，形成结构化的知识图谱。数据集以`jsonl`格式存储，每条记录包含维基百科页面的标识符、标题、URL、关联的Wikidata概念、完整文本内容、首段摘要、分类信息、信息框字段、标题以及事件概念等字段。这些字段的设计旨在为因果知识提取提供丰富的上下文信息，特别是通过`document_concept`和`event_concepts`字段，能够有效支持因果关系的识别与推理。

使用方法

WikiCausal数据集的使用方法主要围绕因果知识图谱的构建与评估展开。用户可以通过提供的Python脚本进行召回率和精确度的评估，分别使用基于Wikidata的基准知识图谱和大型语言模型（LLMs）进行验证。安装依赖后，用户可通过命令行运行`recall.py`和`precision.py`脚本，并指定输入输出文件路径。数据集的使用不仅限于评估，还可用于开发新的因果知识提取算法，或作为训练数据支持相关模型的优化与改进。

背景与挑战

背景概述

WikiCausal数据集由IBM的研究人员Oktie Hassanzadeh等人于2024年创建，旨在为因果知识图谱构建提供评估框架和语料库。该数据集基于维基百科页面内容，结合Wikidata中的概念信息，专注于从文本中提取因果知识。其核心研究问题在于如何从非结构化文本中自动构建高质量的因果知识图谱，以支持更广泛的因果推理任务。该数据集的发布为自然语言处理和知识图谱领域的研究者提供了一个重要的基准，推动了因果知识提取技术的发展。

当前挑战

WikiCausal数据集在解决因果知识提取问题时面临多重挑战。首先，从非结构化文本中准确识别因果关系的复杂性较高，尤其是在处理多义词和模糊表达时。其次，数据集中包含的维基百科页面内容多样且规模庞大，如何高效地提取和整合这些信息成为技术难点。此外，构建过程中需要处理大量噪声数据，例如不完整的时间线或冗余的类别信息，这对模型的鲁棒性提出了更高要求。最后，评估因果知识图谱的准确性和完整性也是一个挑战，尤其是在缺乏高质量标注数据的情况下，如何设计有效的评估指标和方法仍需进一步探索。

常用场景

经典使用场景

WikiCausal数据集在因果知识图谱构建领域具有广泛的应用，尤其在从维基百科文本中提取因果关系的任务中表现突出。研究者通常利用该数据集中的文本内容、元数据以及事件概念，结合其提供的评估框架，进行因果关系的自动提取与验证。通过使用该数据集，研究人员能够有效地评估不同模型在因果知识提取任务中的表现，从而推动相关技术的发展。

解决学术问题

WikiCausal数据集解决了因果知识图谱构建中的关键问题，如从非结构化文本中提取因果关系、验证因果关系的准确性以及评估不同模型的性能。通过提供丰富的维基百科文本内容和结构化元数据，该数据集为研究者提供了一个标准化的评估平台，帮助他们在因果推理、事件序列建模等领域取得突破性进展。

实际应用

在实际应用中，WikiCausal数据集被广泛用于构建智能问答系统、事件预测模型以及因果推理引擎。例如，在医疗领域，研究者可以利用该数据集提取疾病与症状之间的因果关系，从而辅助诊断决策；在金融领域，该数据集可用于分析市场事件之间的因果链，帮助预测市场趋势。

数据集最近研究