RELD

github2024-05-19 更新2024-05-31 收录

下载链接：

https://github.com/dice-group/RELD

下载链接

链接失效反馈

官方服务：

资源简介：

一个关系抽取数据集的知识图谱，用于基准测试关系和句子。

A knowledge graph of a relation extraction dataset, used for benchmarking relationships and sentences.

创建时间：

2021-12-06

原始信息汇总

数据集概述

数据集名称

RELD: A Knowledge Graph of Relation Extraction Datasets

数据集描述

RELD 是一个知识图谱，用于关系抽取数据集的 RDF 化及关系和句子的基准测试。

文档

详细文档可访问 RELD 主页。

数据集转换

单个数据集转换：通过运行特定脚本（如 python semEval.py 等）转换单个数据集，输出为 .ttl 格式，保存于输出文件夹内。
全部数据集转换：通过运行 python data_loader.py 转换所有数据集，此过程可能需要数小时。

数据集列表

Wikipedia_Wikidata
SemEval 2010 Task 8
WEBNLG
Google RE
FewRel
NYT-FB
DocRed
T-REx

数据集下载

各数据集的下载链接提供在 README 文件中。

数据集输出格式

.ttl 格式：在线访问 ttl_dumps。
JSON-LD 格式：在线访问 json_dumps。

SPARQL 端点

RELD 的 SPARQL 端点地址为 http://reld.cs.upb.de:8890/sparql。

本地 Virtuoso 端点

提供 Linux 基础的本地 Virtuoso 端点，配置简单，可通过 endpoint 下载并设置。

作者

Manzoor Ali
Muhammad Saleem
Diego Moussallem
Mohamed Ahmed Sherif
Axel-Cyrille Ngonga Ngomo

许可证

本数据集的源代码发布于 GNU General Public License v3.0。

搜集汇总

数据集介绍

构建方式

RELD数据集的构建方式主要通过将多个关系抽取数据集转换为RDF格式，从而形成一个知识图谱。该过程包括对多个公开数据集（如Wikipedia_Wikidata、SemEval 2010 Task 8、WEBNLG等）进行RDF化处理。用户可以通过运行特定的Python脚本，将单个数据集或所有数据集一次性转换为RDF格式。转换后的数据以.ttl格式存储，并可在指定的输出文件夹中找到。

特点

RELD数据集的主要特点在于其多源数据集的整合与RDF化处理，使得不同数据集之间的关系和句子得以在统一的知识图谱中进行基准测试。此外，数据集提供了静态的RDF和JSON-LD格式的转储文件，便于非语义网社区的使用。RELD还提供了一个在线的SPARQL端点，用户可以通过该端点进行查询和分析。

使用方法

使用RELD数据集时，用户可以通过运行提供的Python脚本将数据集转换为RDF格式，或直接使用已生成的静态转储文件。对于需要进行复杂查询的用户，可以通过访问RELD的SPARQL端点进行实时查询。此外，RELD还提供了一个可配置的本地Virtuoso端点，用户可以在本地环境中运行并进行数据分析。

背景与挑战

背景概述

RELD（Relation Extraction Datasets）数据集由DICE研究组（Paderborn大学）的Manzoor Ali、Muhammad Saleem、Diego Moussallem、Mohamed Ahmed Sherif和Axel-Cyrille Ngonga Ngomo等人创建，旨在将关系抽取数据集转化为RDF格式，并进行关系和句子的基准测试。该数据集的构建时间可追溯至2022年，其核心研究问题在于如何有效地将多种关系抽取数据集整合为统一的RDF格式，以便于知识图谱的构建与分析。RELD的推出对关系抽取领域具有重要意义，为研究人员提供了一个标准化的数据集转换工具，促进了知识图谱技术的进一步发展。

当前挑战

RELD数据集在构建过程中面临多项挑战。首先，不同数据集的格式和结构各异，如何高效地将这些数据集统一转换为RDF格式是一个技术难题。其次，数据集的规模庞大，转换过程耗时较长，尤其是在处理多个数据集时，可能需要数小时才能完成。此外，RDF格式的数据集在存储和查询效率上也面临挑战，尤其是在大规模知识图谱的构建中，如何优化查询性能是一个亟待解决的问题。最后，RELD的推广和应用也面临挑战，如何让非语义网社区的用户更容易理解和使用RDF格式的数据集，仍需进一步的研究和工具支持。

常用场景

经典使用场景

RELD数据集在关系抽取领域中扮演着至关重要的角色，其经典使用场景主要体现在对多种关系抽取数据集的RDF化处理与基准测试。通过将不同来源的数据集如SemEval 2010 Task 8、Google RE、Wikipedia-Wikidata等转换为RDF格式，RELD为研究者提供了一个统一的框架，以便于在知识图谱中进行关系和句子的基准测试。这种转换不仅简化了数据处理流程，还为跨数据集的比较研究提供了坚实的基础。

解决学术问题

RELD数据集解决了关系抽取领域中跨数据集比较和基准测试的难题。传统上，不同数据集的格式和结构各异，导致难以进行有效的比较和分析。RELD通过将这些数据集统一转换为RDF格式，使得研究者能够在同一框架下进行关系抽取性能的评估，从而推动了该领域的标准化和规范化研究。此外，RELD还为新算法和模型的开发提供了基准数据，有助于加速关系抽取技术的进步。

衍生相关工作

RELD数据集的推出催生了一系列相关研究工作，特别是在关系抽取和知识图谱构建领域。许多研究者基于RELD的RDF化数据集，开发了新的关系抽取算法和模型，这些工作在多个国际会议和期刊上发表，如ACL、EMNLP和TKDE等。此外，RELD还启发了对大规模知识图谱构建和维护的研究，推动了知识图谱在多个领域的应用，如生物信息学、法律信息检索和社交媒体分析等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集