five

WN18, WN18RR, FB15k, FB15k-237, YAGA3-10, Countries, Kinship, Nations, UMLS|知识图谱数据集|数据集数据集

收藏
github2019-03-07 更新2024-05-31 收录
知识图谱
数据集
下载链接:
https://github.com/surefirelin/KGDatasets
下载链接
链接失效反馈
资源简介:
这是一个包含多个知识图谱实验数据集的仓库,这些数据集都是广为人知、流行且全面的。目前整理了9个数据集,未来可能还会添加更多。

This repository contains a collection of widely recognized, popular, and comprehensive datasets for knowledge graph experiments. Currently, it includes 9 datasets, with the possibility of adding more in the future.
创建时间:
2019-03-07
原始信息汇总

数据集概述

本数据集包含9个知识图谱实验数据集,具体如下:

  1. WN18
  2. WN18RR
  3. FB15k
  4. FB15k-237
  5. YAGA3-10
  6. Countries
  7. Kinship
  8. Nations
  9. UMLS

这些数据集均为业界知名且广泛使用的综合性数据集。

AI搜集汇总
数据集介绍
main_image_url
构建方式
在知识图谱研究领域,WN18、WN18RR、FB15k、FB15k-237、YAGA3-10等九大数据集的构建,均源于对现实世界中各类关系的抽象与模型化。通过对特定领域的实体及其相互关系进行编码,这些数据集为研究者提供了结构化的知识表示,便于进行知识图谱相关的算法研究与性能评测。
使用方法
用户在使用这些数据集时,可根据研究需求进行选择。一般而言,下载后可直接加载数据集,利用其中的实体与关系进行图模型构建。针对具体任务,用户可能需要对数据进行预处理,如分割训练集与测试集、特征工程等。此外,数据集的文档通常提供了详细的读取与操作指南,有助于用户高效地利用数据集展开研究。
背景与挑战
背景概述
知识图谱作为人工智能领域的重要分支,其研究旨在构建能够模拟人类知识理解和推理的计算机系统。在此背景下,WN18, WN18RR, FB15k, FB15k-237, YAGA3-10, Countries, Kinship, Nations, UMLS等数据集应运而生。这些数据集由多个研究机构和学者在2010年代陆续创建,旨在为知识图谱的构建、评估与推理提供实验基础。它们包含了不同领域的实体和关系,如常识知识、地理位置、人际关系等,对知识图谱领域的研究具有深远影响。
当前挑战
尽管这些数据集为知识图谱研究提供了丰富的资源,但它们也面临诸多挑战。首先,数据集的构建过程中,实体和关系的覆盖范围及准确性是关键问题,这直接关系到知识图谱的质量和应用效果。其次,不同数据集之间的异构性和不兼容性,给数据融合和多任务学习带来了困难。此外,知识图谱的动态性和实时更新需求,也对数据集的维护和更新提出了挑战。在研究领域问题方面,如WN18和FB15k等数据集在知识图谱嵌入和链接预测中,如何处理稀疏数据和提高预测准确性,是当前研究的热点问题。
常用场景
经典使用场景
在知识图谱领域,WN18, WN18RR, FB15k等数据集被广泛用于评估和比较各种链接预测算法的性能。这些数据集通过提供大量实体和关系的实例,使得研究者能够深入探究知识图谱的结构特性,并基于此进行算法的有效训练与测试。
解决学术问题
这些数据集的构建,解决了知识图谱领域中链接预测、实体识别和关系分类等关键问题。通过提供标注好的训练与测试数据,研究者得以准确评估算法的准确性、召回率以及F1分数等指标,为学术研究提供了可靠的评价基准。
实际应用
实际应用中,此类数据集的知识图谱结构被应用于语义搜索、推荐系统、自然语言理解等领域。它们帮助开发者构建能够理解和处理复杂语义信息的系统,从而提升应用的智能化水平。
数据集最近研究
最新研究方向
在知识图谱研究领域,WN18, WN18RR, FB15k等数据集因其广泛性与代表性,成为学术研究的热点。当前,研究者们正致力于探索深层次语义关系抽取、知识图谱嵌入等前沿方向,以期提高知识图谱的构建与推理能力。这些数据集的应用不仅推动了知识图谱在自然语言处理、推荐系统等领域的融合创新,也对理解人类认知机制与网络信息传播具有重要的理论与实际意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

38-Cloud

该数据集包含38幅Landsat 8场景图像及其手动提取的像素级云检测地面实况。数据集被分割成多个384*384的补丁,适合深度学习语义分割算法。训练集有8400个补丁,测试集有9201个补丁。每个补丁包含4个对应的谱通道:红色、绿色、蓝色和近红外。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

INTERACTION Dataset

INTERACTION数据集是由加州大学伯克利分校机械系统控制实验室等多个国际研究机构合作创建的,旨在为自动驾驶领域提供高质量的交互式驾驶场景数据。该数据集包含多种复杂的交互式驾驶场景,如城市/高速公路/匝道合并和车道变更、环形交叉口、信号交叉口等,覆盖多个国家和文化背景,以自然方式包含不同文化的驾驶偏好和风格。数据集强调高度交互和复杂的驾驶行为,包括对抗性和合作性运动,以及从常规安全操作到危险、接近碰撞的操纵。此外,数据集提供完整的语义地图信息,包括物理层、参考线、车道连接和交通规则,记录自无人机和交通摄像头。该数据集适用于运动预测、模仿学习、决策制定和规划、表示学习、交互提取和社会行为生成等研究领域,旨在解决自动驾驶中的关键问题。

arXiv 收录

SSDD遥感SAR目标检测数据集-COCO格式

SSDD遥感SAR目标检测数据集-COCO格式,按照官方制定方式划分训练/验证集

AI_Studio 收录