five

FB15k / FB15k-237|知识图谱数据集|实体关系数据集

收藏
github2024-05-17 更新2024-05-31 收录
知识图谱
实体关系
下载链接:
https://github.com/villmow/datasets_knowledge_embedding
下载链接
链接失效反馈
资源简介:
这些数据集基于Freebase知识图谱,实体通过其Freebase ID提及。由于Freebase KG已被存档并不再使用,我通过匹配实体与Wikidata实体并从Wikidata获取元数据。Wikidata实体包含一个freebase_id关系,用于匹配实体。然而,并非所有实体都能通过这种方式解析,因此我查询了DBPedia以获取剩余的实体。

These datasets are based on the Freebase knowledge graph, where entities are referenced by their Freebase IDs. Since the Freebase KG has been archived and is no longer in use, I matched entities with Wikidata entities and retrieved metadata from Wikidata. Wikidata entities include a freebase_id relation for entity matching. However, not all entities could be resolved in this manner, so I queried DBPedia to obtain the remaining entities.
创建时间:
2018-01-25
原始信息汇总

数据集概述

数据集名称

  • FB15k / FB15k-237
  • WN18 / WN18RR

数据集来源

  • FB15k / FB15k-237: 基于Freebase知识图谱,后匹配Wikidata实体并获取元数据。
  • WN18 / WN18RR: 来自WordNet数据,包含18/11种关系。

数据集内容

  • FB15k / FB15k-237: 包含通过Freebase ID提及的实体,后通过Wikidata和DBPedia匹配获取的元数据。
  • WN18 / WN18RR: 包含WordNet中的实体及其关系,通过验证关系将数据集转换回WordNet synsets。

数据集文件

  • FB15k / FB15k-237: 包含entity2wikidata.json文件,用于存储Freebase实体的元数据。

数据集处理

  • FB15k / FB15k-237: 使用Python脚本通过SPARQL查询和Wikidata API匹配和获取实体信息。
  • WN18 / WN18RR: 通过验证关系将WordNet中的实体转换回synsets。

数据集注意事项

  • FB15k / FB15k-237: 约40个实体无法找到文本信息。
  • WN18 / WN18RR: WN18数据集存在信息泄露问题,不应用于研究评估。

数据集使用

  • FB15k / FB15k-237: 提供用于知识图谱完成的文本信息,使用时需谨慎。
  • WN18 / WN18RR: 提供WordNet实体的文本表示,可通过NLTK库加载和使用。
AI搜集汇总
数据集介绍
main_image_url
构建方式
FB15k-237数据集的构建基于Freebase知识图谱,由于Freebase已被归档,研究者通过匹配Freebase实体与Wikidata实体,并从Wikidata中获取元数据。具体而言,利用Wikidata中的`freebase_id`关系进行实体匹配,对于无法通过Wikidata匹配的实体,进一步查询DBPedia以获取相关信息。最终,约有40个实体未能找到对应的文本信息。
使用方法
使用FB15k-237数据集时,研究者可以通过提供的`entity2wikidata.json`文件获取Freebase实体与Wikidata实体的映射关系及其元数据。此外,数据集的构建代码展示了如何通过SPARQL查询从Wikidata和DBPedia中提取信息,为研究者提供了自定义数据处理的参考。
背景与挑战
背景概述
FB15k-237数据集是基于Freebase知识图谱的子集,旨在为知识图谱补全任务提供实体的文本信息。该数据集由研究人员通过将Freebase实体与Wikidata和DBPedia中的实体进行匹配而创建,主要目的是解决知识图谱中实体文本信息缺失的问题。由于Freebase知识图谱已不再使用,研究人员通过Wikidata中的`freebase_id`关系进行实体匹配,并从Wikidata获取元数据。尽管如此,仍有约40个实体无法找到对应的文本信息。该数据集的创建为知识图谱补全领域的研究提供了重要的资源,尤其是在处理实体文本信息缺失的场景中。
当前挑战
FB15k-237数据集在构建过程中面临的主要挑战包括:首先,由于Freebase知识图谱已不再使用,研究人员需要通过Wikidata和DBPedia进行实体匹配,这一过程复杂且耗时。其次,尽管大部分实体能够成功匹配,但仍有约40个实体无法找到对应的文本信息,这为数据集的完整性带来了一定的局限性。此外,数据集的正确性未经过严格验证,使用时需谨慎。在应用层面,如何有效利用这些文本信息进行知识图谱补全,仍是一个亟待解决的研究问题。
常用场景
经典使用场景
FB15k-237数据集在知识图谱补全领域中被广泛应用于实体关系的推理和预测。通过结合Freebase和Wikidata的实体信息,该数据集为研究者提供了一个丰富的知识库,用于训练和评估知识图谱补全模型。经典的应用场景包括基于三元组(头实体、关系、尾实体)的链接预测任务,旨在预测缺失的实体或关系,从而增强知识图谱的完整性和准确性。
解决学术问题
FB15k-237数据集解决了知识图谱补全中的多个学术问题,特别是在处理大规模知识图谱时,如何有效地进行实体和关系的映射与补全。该数据集通过提供实体的文本信息,帮助研究者克服了传统知识图谱中实体描述不足的问题,推动了基于文本的知识图谱补全技术的发展。此外,它还为研究者提供了一个标准化的基准,用于评估不同知识图谱补全算法的性能。
实际应用
在实际应用中,FB15k-237数据集被广泛用于构建智能问答系统、推荐系统和语义搜索引擎。通过利用知识图谱补全技术,这些系统能够更准确地理解用户查询,提供更精准的答案和推荐。例如,在医疗领域,知识图谱补全可以帮助医生快速获取患者的病史信息,从而做出更准确的诊断。在电商领域,它可以提升商品推荐的个性化和精准度。
数据集最近研究
最新研究方向
FB15k-237数据集在知识图谱补全领域的最新研究方向主要集中在结合实体的文本信息进行知识图谱的扩展与补全。随着Freebase知识图谱的退役,研究者们通过将Freebase实体映射到Wikidata和DBPedia,获取了丰富的元数据和文本信息,从而提升了知识图谱的完整性和准确性。这一研究方向不仅解决了旧知识图谱数据的利用问题,还为新知识图谱的构建提供了新的思路。此外,结合文本信息的实体匹配技术也成为了当前研究的热点,尤其是在处理实体歧义和多义性方面,取得了显著进展。这些研究不仅推动了知识图谱技术的发展,也为自然语言处理和人工智能领域的应用提供了坚实的基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录