FB15k / FB15k-237|知识图谱数据集|实体匹配数据集

github2020-10-05 更新2024-05-31 收录

知识图谱

实体匹配

下载链接：

https://github.com/TalonCB/datasets_knowledge_embedding

下载链接

链接失效反馈

资源简介：

这些数据集基于Freebase知识图谱，实体通过其Freebase ID提及。由于Freebase KG已存档且不再使用，我通过匹配实体与Wikidata实体并从Wikidata获取元数据。Wikidata实体包含一个freebase_id关系，用于匹配实体。然而，并非所有实体都能通过这种方式解析，因此我查询了DBPedia以获取剩余的实体信息。

创建时间：

2020-10-05

原始信息汇总

数据集概述

1. 数据集名称及目的

名称: Datasets for Knowledge Graph Completion with Textual Information about Entities
目的: 提供知识图谱完成任务中实体的文本信息。

2. 数据集内容

主要数据集: FB15k / FB15k-237
- 来源: 基于Freebase知识图谱，通过匹配Wikidata实体获取元数据。
- 处理方法: 使用Wikidata中的freebase_id关系匹配实体，未能匹配的实体通过DBPedia查询。
- 缺失信息: 约40个实体无法找到文本信息。
- 元数据文件: entity2wikidata.json，包含Freebase实体的元数据。
其他数据集: 存放在other/目录下，主要为小型KGC（Knowledge Graph Completion）数据集，未进行文本匹配。

3. 数据集处理方法

实体匹配: 使用Python脚本freebase2wikidata，通过SPARQL查询和Wikidata服务，将Freebase ID映射到Wikidata实体。
文本信息获取: 通过Wikidata和DBPedia查询，获取实体的标签、描述、替代标签和维基百科链接。

4. 数据集使用注意事项

正确性: 数据集提供者未验证信息的正确性，使用时需谨慎。

5. WN18 / WN18RR数据集

来源: 从TimDettmers/ConvE获取WN18RR数据集，WN18数据集从GitHub获取。
问题: WN18数据集存在80%以上的测试三元组在训练集中有另一种关系，不适用于研究评估。
文本转换: 将WordNet偏移量转换回WordNet同义词集，通过验证关系是否成立来解决实体的歧义问题。

结论

该数据集主要用于知识图谱完成任务，提供了实体的文本信息，但需注意数据正确性和特定数据集的使用限制。

AI搜集汇总

数据集介绍

构建方式

FB15k和FB15k-237数据集基于Freebase知识图谱构建，由于Freebase已不再使用，研究者通过匹配Freebase实体与Wikidata实体，并从Wikidata获取元数据。具体而言，利用Wikidata中的`freebase_id`关系进行实体匹配，对于未能通过Wikidata匹配的实体，进一步查询DBPedia以获取信息。最终，仍有约40个实体未能找到对应的文本信息。

特点

该数据集的特点在于其结合了Freebase和Wikidata的知识图谱信息，提供了丰富的实体元数据，包括标签、描述、替代标签和维基百科链接等。尽管部分实体未能匹配到文本信息，但整体上为知识图谱补全任务提供了较为全面的实体描述。

使用方法

使用该数据集时，可以通过提供的`entity2wikidata.json`文件获取Freebase实体的元数据。研究者可以利用这些元数据进行知识图谱补全、实体链接等任务。此外，数据集的构建方法展示了如何通过SPARQL查询从Wikidata和DBPedia中提取信息，为相关研究提供了参考。

背景与挑战

背景概述

FB15k和FB15k-237数据集是基于Freebase知识图谱构建的，主要用于知识图谱补全任务。Freebase知识图谱已被归档，不再使用，因此研究人员通过将Freebase实体与Wikidata实体进行匹配，并从Wikidata中获取元数据，以获取实体的文本信息。该数据集的核心研究问题是如何在知识图谱补全任务中有效利用实体的文本信息，从而提升模型的表现。通过将Freebase实体与Wikidata和DBPedia进行匹配，研究人员成功构建了一个包含文本信息的实体映射数据集，为知识图谱补全领域的研究提供了新的资源。

当前挑战

构建FB15k和FB15k-237数据集过程中面临的主要挑战包括：首先，Freebase知识图谱的归档导致部分实体无法直接匹配到Wikidata，需通过DBPedia进行补充，但仍有约40个实体无法找到对应的文本信息。其次，实体匹配的准确性依赖于Wikidata和DBPedia的映射关系，存在一定的误差风险。此外，数据集的构建过程涉及复杂的实体匹配和文本信息提取，技术实现难度较高。这些挑战使得数据集的使用需谨慎，并需进一步优化匹配算法以提高数据质量。

常用场景

经典使用场景

FB15k和FB15k-237数据集在知识图谱补全领域中被广泛用于实体关系的推理和预测。通过结合Freebase和Wikidata的实体信息，研究者可以利用这些数据集进行知识图谱的扩展和补全，尤其是在处理实体间复杂关系时，这些数据集提供了丰富的文本信息和关系类型，使得模型能够更好地理解实体间的语义关联。

解决学术问题

FB15k和FB15k-237数据集解决了知识图谱补全中的多个关键问题，如实体对齐、关系推理和语义匹配。通过提供实体的文本描述和多源数据对齐，这些数据集帮助研究者开发更精确的模型，以解决知识图谱中的信息缺失问题。此外，这些数据集还为研究知识图谱的动态性和复杂性提供了宝贵的资源，推动了相关领域的学术进展。

衍生相关工作

FB15k和FB15k-237数据集的发布催生了一系列相关的经典工作，特别是在知识图谱补全和实体关系推理领域。许多研究者基于这些数据集开发了新的模型和算法，如TransE、ConvE等，这些模型在处理知识图谱中的复杂关系时表现出色。此外，这些数据集还激发了对多源数据融合和跨领域知识图谱构建的研究，推动了知识图谱技术的整体发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

GetData.IO - finance - Google Search

GetData.IO -

getdata.io 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

Ansh007/Jellyfish-Image-Dataset

该数据集包含900张水母图像，分为六个不同的类别和物种：紫水母、月亮水母、桶水母、蓝水母、罗盘水母和狮鬃水母。这些图像可用于机器学习技术，以获得水母分类、物种识别和颜色分析的洞察。每个物种都有详细的描述，包括其特征和食物来源。此外，数据集还提供了使用案例，如水母分类、物种识别和颜色分析。

hugging_face 收录

Global Climate Risk Index (CRI)

全球气候风险指数（CRI）是一个评估各国气候变化相关风险的指数。该数据集提供了各国在特定年份内因极端天气事件（如洪水、干旱、风暴等）所遭受的经济损失、死亡人数以及受影响人口的数据。此外，还包括了各国应对气候变化的能力和脆弱性分析。

www.germanwatch.org 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。