five

FB15k / FB15k-237

收藏
github2024-05-17 更新2024-05-31 收录
下载链接:
https://github.com/villmow/datasets_knowledge_embedding
下载链接
链接失效反馈
官方服务:
资源简介:
这些数据集基于Freebase知识图谱,实体通过其Freebase ID提及。由于Freebase KG已被存档并不再使用,我通过匹配实体与Wikidata实体并从Wikidata获取元数据。Wikidata实体包含一个freebase_id关系,用于匹配实体。然而,并非所有实体都能通过这种方式解析,因此我查询了DBPedia以获取剩余的实体。

These datasets are based on the Freebase knowledge graph, where entities are referenced by their Freebase IDs. Since the Freebase KG has been archived and is no longer in use, I matched entities with Wikidata entities and retrieved metadata from Wikidata. Wikidata entities include a freebase_id relation for entity matching. However, not all entities could be resolved in this manner, so I queried DBPedia to obtain the remaining entities.
创建时间:
2018-01-25
原始信息汇总

数据集概述

数据集名称

  • FB15k / FB15k-237
  • WN18 / WN18RR

数据集来源

  • FB15k / FB15k-237: 基于Freebase知识图谱,后匹配Wikidata实体并获取元数据。
  • WN18 / WN18RR: 来自WordNet数据,包含18/11种关系。

数据集内容

  • FB15k / FB15k-237: 包含通过Freebase ID提及的实体,后通过Wikidata和DBPedia匹配获取的元数据。
  • WN18 / WN18RR: 包含WordNet中的实体及其关系,通过验证关系将数据集转换回WordNet synsets。

数据集文件

  • FB15k / FB15k-237: 包含entity2wikidata.json文件,用于存储Freebase实体的元数据。

数据集处理

  • FB15k / FB15k-237: 使用Python脚本通过SPARQL查询和Wikidata API匹配和获取实体信息。
  • WN18 / WN18RR: 通过验证关系将WordNet中的实体转换回synsets。

数据集注意事项

  • FB15k / FB15k-237: 约40个实体无法找到文本信息。
  • WN18 / WN18RR: WN18数据集存在信息泄露问题,不应用于研究评估。

数据集使用

  • FB15k / FB15k-237: 提供用于知识图谱完成的文本信息,使用时需谨慎。
  • WN18 / WN18RR: 提供WordNet实体的文本表示,可通过NLTK库加载和使用。
搜集汇总
数据集介绍
main_image_url
构建方式
FB15k-237数据集的构建基于Freebase知识图谱,由于Freebase已被归档,研究者通过匹配Freebase实体与Wikidata实体,并从Wikidata中获取元数据。具体而言,利用Wikidata中的`freebase_id`关系进行实体匹配,对于无法通过Wikidata匹配的实体,进一步查询DBPedia以获取相关信息。最终,约有40个实体未能找到对应的文本信息。
使用方法
使用FB15k-237数据集时,研究者可以通过提供的`entity2wikidata.json`文件获取Freebase实体与Wikidata实体的映射关系及其元数据。此外,数据集的构建代码展示了如何通过SPARQL查询从Wikidata和DBPedia中提取信息,为研究者提供了自定义数据处理的参考。
背景与挑战
背景概述
FB15k-237数据集是基于Freebase知识图谱的子集,旨在为知识图谱补全任务提供实体的文本信息。该数据集由研究人员通过将Freebase实体与Wikidata和DBPedia中的实体进行匹配而创建,主要目的是解决知识图谱中实体文本信息缺失的问题。由于Freebase知识图谱已不再使用,研究人员通过Wikidata中的`freebase_id`关系进行实体匹配,并从Wikidata获取元数据。尽管如此,仍有约40个实体无法找到对应的文本信息。该数据集的创建为知识图谱补全领域的研究提供了重要的资源,尤其是在处理实体文本信息缺失的场景中。
当前挑战
FB15k-237数据集在构建过程中面临的主要挑战包括:首先,由于Freebase知识图谱已不再使用,研究人员需要通过Wikidata和DBPedia进行实体匹配,这一过程复杂且耗时。其次,尽管大部分实体能够成功匹配,但仍有约40个实体无法找到对应的文本信息,这为数据集的完整性带来了一定的局限性。此外,数据集的正确性未经过严格验证,使用时需谨慎。在应用层面,如何有效利用这些文本信息进行知识图谱补全,仍是一个亟待解决的研究问题。
常用场景
经典使用场景
FB15k-237数据集在知识图谱补全领域中被广泛应用于实体关系的推理和预测。通过结合Freebase和Wikidata的实体信息,该数据集为研究者提供了一个丰富的知识库,用于训练和评估知识图谱补全模型。经典的应用场景包括基于三元组(头实体、关系、尾实体)的链接预测任务,旨在预测缺失的实体或关系,从而增强知识图谱的完整性和准确性。
解决学术问题
FB15k-237数据集解决了知识图谱补全中的多个学术问题,特别是在处理大规模知识图谱时,如何有效地进行实体和关系的映射与补全。该数据集通过提供实体的文本信息,帮助研究者克服了传统知识图谱中实体描述不足的问题,推动了基于文本的知识图谱补全技术的发展。此外,它还为研究者提供了一个标准化的基准,用于评估不同知识图谱补全算法的性能。
实际应用
在实际应用中,FB15k-237数据集被广泛用于构建智能问答系统、推荐系统和语义搜索引擎。通过利用知识图谱补全技术,这些系统能够更准确地理解用户查询,提供更精准的答案和推荐。例如,在医疗领域,知识图谱补全可以帮助医生快速获取患者的病史信息,从而做出更准确的诊断。在电商领域,它可以提升商品推荐的个性化和精准度。
数据集最近研究
最新研究方向
FB15k-237数据集在知识图谱补全领域的最新研究方向主要集中在结合实体的文本信息进行知识图谱的扩展与补全。随着Freebase知识图谱的退役,研究者们通过将Freebase实体映射到Wikidata和DBPedia,获取了丰富的元数据和文本信息,从而提升了知识图谱的完整性和准确性。这一研究方向不仅解决了旧知识图谱数据的利用问题,还为新知识图谱的构建提供了新的思路。此外,结合文本信息的实体匹配技术也成为了当前研究的热点,尤其是在处理实体歧义和多义性方面,取得了显著进展。这些研究不仅推动了知识图谱技术的发展,也为自然语言处理和人工智能领域的应用提供了坚实的基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作