Wiki Entity Summarization Benchmark (WikES)

github2024-06-15 更新2024-06-16 收录

下载链接：

https://github.com/msorkhpar/wiki-entity-summarization

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集利用wiki-entity-summarization-preprocessor项目构建基于给定节点集的实体摘要图，通过随机游走采样和深度K从种子节点开始，维护Wikidata知识图谱的结构，并添加摘要边到结果中。最终生成一个包含种子节点、摘要边、种子节点的1至K跳邻居及其边以及确保图连通性添加的任何中间节点的异构图。每个节点和边都通过Wikidata、Wikipedia和谓词信息进行元数据丰富，提供实体及其关系的额外上下文和详细信息。

This dataset is constructed using the wiki-entity-summarization-preprocessor project to build an entity summary graph based on a given set of nodes. It employs random walk sampling and depth K starting from seed nodes to maintain the structure of the Wikidata knowledge graph, while adding summary edges to the results. Ultimately, it generates a heterogeneous graph that includes seed nodes, summary edges, 1-to-K hop neighbors of the seed nodes and their edges, as well as any intermediate nodes added to ensure graph connectivity. Each node and edge is enriched with metadata from Wikidata, Wikipedia, and predicate information, providing additional context and detailed information about the entities and their relationships.

创建时间：

2024-05-19

原始信息汇总

Wiki Entity Summarization Benchmark (WikES) 数据集概述

数据集构建方法

1. 构建摘要图

从给定节点集构建实体摘要图。
通过随机游走采样（深度为K）从种子节点开始，添加摘要边。

2. 扩展摘要图

从种子节点进行随机游走，模拟Wikidata图结构。
根据种子节点的度数调整游走次数。
从随机游走结果中添加新边。

3. 连接组件

检查扩展图是否为单一弱连接组件。
若非，使用最短路径迭代连接小组件，直至形成单一组件。

4. 添加元数据

为图中的每个节点和边添加来自Wikidata、Wikipedia和谓词信息的元数据。

数据集加载

使用`wikes-toolkit`

通过Python包wikes-toolkit下载、加载、处理和评估48个Wiki-Entity-Summarization数据集。

使用`mlcroissant`

通过mlcroissant库加载WikES数据集，使用预先生成的JSON元数据文件。

预处理数据库

使用Wikipedia和Wikidata的XML转储文件将en-wikidata项及其摘要导入Neo4j数据库。
相关元数据导入Postgres数据库。

预生成数据集

使用“A Brief History of Human Time project”生成的数据集，包含不同的人类艺术和职业分类的种子节点。

数据集详情

数据集名称	#roots	#summaries	#nodes	#edges	#labels	种子类别分布	运行时间(秒)
WikiLitArt-s	494	10416	85346	136950	547	详见文本	91.934
WikiLitArt-s-train	346	7234	61885	96497	508	详见文本	66.023
WikiLitArt-s-val	74	1572	14763	20795	340	详见文本	14.364
WikiLitArt-s-test	74	1626	15861	22029	350	详见文本	14.6
...（其他数据集详情类似，具体数据略）	...	...	...	...	...	...	...

这些数据集提供了丰富的实体关系和元数据，适用于多种研究和应用场景。

搜集汇总

数据集介绍

构建方式

在构建Wiki Entity Summarization Benchmark (WikES)数据集时，研究团队首先利用[wiki-entity-summarization-preprocessor](https://github.com/msorkhpar/wiki-entity-summarization-preprocessor)项目，通过给定的节点集合构建一个实体摘要图。该过程通过随机游走采样，从种子节点开始，深度为K，确保在添加所有摘要边后，扩展图形成一个单一的弱连通组件。若未形成，则通过找到B条路径连接组件。最终，生成的异构图包含种子节点、其摘要边、种子节点的(1..K)-hop邻居及其边，以及确保图连通性的中间节点。每个节点和边均被丰富了来自Wikidata和Wikipedia的元数据及谓词信息，以提供额外的上下文和详细信息。

特点

WikES数据集的主要特点在于其高度结构化的异构图形式，这种形式不仅保留了Wikidata知识图谱的原始结构，还通过随机游走采样和组件连接策略，确保了图的连通性和完整性。此外，数据集中的每个节点和边都附有丰富的元数据，包括来自Wikidata和Wikipedia的标签、描述等信息，以及谓词信息，这为实体及其关系的深入分析提供了丰富的上下文支持。数据集的多样性和详细性使其成为实体摘要和知识图谱研究领域的宝贵资源。

使用方法

使用WikES数据集时，用户可以通过两种主要方式进行加载和操作。首先，可以使用[wikes-toolkit](https://github.com/msorkhpar/wiki-entity-summarization-toolkit)，这是一个Python包，支持下载、加载、处理和评估48个Wiki-Entity-Summarization数据集。其次，用户也可以使用[mlcroissant](https://github.com/mlcommons/croissant/)，通过加载预生成的JSON元数据文件来访问数据集。这两种方法都提供了详细的API和示例代码，帮助用户快速上手并进行深入的数据分析和模型训练。

背景与挑战

背景概述

Wiki Entity Summarization Benchmark (WikES) 数据集由主要研究人员或机构于近期创建，旨在解决知识图谱中实体摘要生成的核心研究问题。该数据集通过利用Wikidata和Wikipedia的丰富信息，构建了一个包含种子节点及其扩展邻居的异构图，每个节点和边均附有详细的元数据。WikES不仅为实体摘要任务提供了丰富的资源，还推动了相关领域的发展，特别是在知识图谱和自然语言处理领域。

当前挑战

WikES数据集在构建过程中面临多个挑战。首先，如何从庞大的Wikidata和Wikipedia数据中高效地提取和整合信息，确保数据的准确性和完整性，是一个重要的技术难题。其次，随机游走采样和图连接组件的算法设计需要精确控制，以保证生成的图结构既符合实际知识图谱的特征，又具备计算效率。此外，数据集的多样性和规模也带来了存储和处理上的挑战，尤其是在处理大规模异构图时，如何优化计算资源和时间成本是一个持续的研究课题。

常用场景

经典使用场景

在知识图谱研究领域，Wiki Entity Summarization Benchmark (WikES) 数据集的经典使用场景主要集中在实体摘要生成和图结构扩展。研究者通过该数据集构建实体摘要图，利用随机游走算法扩展图结构，确保图的连通性，并在此基础上进行实体关系分析和摘要生成模型的训练与评估。

解决学术问题

WikES 数据集解决了知识图谱中实体摘要生成的关键学术问题。通过提供丰富的实体及其关系数据，该数据集支持研究者开发和验证新的摘要生成算法，从而提升知识图谱的语义理解和信息提取能力。其意义在于推动了实体摘要技术的发展，为知识图谱的构建和应用提供了坚实的基础。

衍生相关工作

基于 WikES 数据集，研究者们开展了多项相关工作。例如，有研究利用该数据集进行实体关系抽取和图神经网络的训练，以提升知识图谱的推理能力。此外，还有工作探讨了如何在多模态数据融合的背景下，利用 WikES 数据集进行跨模态实体摘要生成，进一步拓展了其应用范围和研究深度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集