Linked Data datasets

github2022-04-11 更新2024-05-31 收录

下载链接：

https://github.com/lapaesleme/DatasetDescriptions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含使用VoID词汇表描述的Linked Data数据集，涵盖了链接集、类、属性和主题类别。数据集整合了来自DataHub、数据集转储、VoID文件和DBpedia的数据，并通过DBpedia Spotlight识别数据集中的命名实体，并将其与DBpedia数据库中的主题类别列表链接。

This dataset comprises Linked Data datasets described using the VoID vocabulary, encompassing link sets, classes, properties, and subject categories. It integrates data from DataHub, dataset dumps, VoID files, and DBpedia, and identifies named entities within the datasets through DBpedia Spotlight, linking them to a list of subject categories in the DBpedia database.

创建时间：

2017-07-03

原始信息汇总

数据集概述

数据集描述

数据集位置: 位于目录 "dataset" 中，以 nQuad RDF 文件格式存储。
数据集内容: 包含链接集、类、属性和主题类别，整合了 DataHub、数据集转储、VoID 文件和 DBpedia 的数据。
实体链接: 使用 DBpedia Spotlight 识别数据集中的命名实体，并通过 dcterms:subject 属性链接到 DBpedia 数据库的类别。

实验数据

数据位置: 位于 "prepared_test_data" 目录中，包含 CSV 文件格式。
数据组织:
- bayesian-social_network: 用于评估基于社交网络分析和贝叶斯分类器的排名模型。
- cos-j48-jrip: 用于评估基于余弦相似度和 JRip、J48 分类器的排名模型。
数据细分:
- 5L: 使用五个链接集的数据集表示。
- 12C: 使用十二个主题类别的数据集表示。
- 5L12C: 使用五个链接集和十二个主题类别的数据集表示。

测试数据详情

文件类型: 包含 Testi.csv, Traningi.csv, Relevantsi.csv。
内容:
- Testi.csv: 包含目标数据集。
- Traningi.csv: 包含待排名数据集。
- Relevantsi.csv: 包含待排名数据集相对于目标数据集的相关性程度。
数据来源: 从 Datahub 中选取的 1113 个数据集，采用 3-fold 交叉验证方法组合。

搜集汇总

数据集介绍

构建方式

Linked Data数据集的构建采用了VoID词汇表进行描述，并结合了DataHub、数据集转储、VoID文件以及DBpedia等多源数据。通过DBpedia Spotlight技术，识别了数据集中的命名实体，并将其与DBpedia的主题类别进行关联。每个命名实体通过dcterms:subject谓词直接链接到DBpedia的类别，而每个主题类别则通过skos:broader谓词与其他类别形成层级关系。数据集描述以nQuad RDF文件形式存储，实验数据则以CSV文件形式组织，便于后续的模型评估。

使用方法

数据集的使用方法主要围绕模型评估展开。实验数据以CSV文件形式提供，分为三个系列，分别包含测试集、训练集和相关度文件。测试集包含目标数据集，训练集则包含待排名的数据集，相关度文件则记录了待排名数据集与目标数据集之间的相关度。通过3折交叉验证的方式，用户可以从1113个数据集中选择合适的数据进行模型训练和评估。此外，数据集还提供了基于贝叶斯分类器和社交网络分析的实验数据，用户可以根据需求选择不同的特征表示方法进行模型测试。

背景与挑战

背景概述

Linked Data datasets 数据集由研究人员利用VoID词汇表构建，旨在为评估数据集排序模型提供实验数据。该数据集整合了来自DataHub、数据集转储、VoID文件和DBpedia的多源数据，并通过DBpedia Spotlight识别数据集中的命名实体，将其与DBpedia的主题类别关联。数据集的核心研究问题在于如何通过链接数据（Linked Data）技术实现数据集的语义关联与排序，从而推动数据集成与知识发现领域的发展。该数据集自发布以来，为数据科学、语义网和信息检索领域的研究提供了重要的实验基础。

当前挑战

Linked Data datasets 数据集在构建与应用过程中面临多重挑战。首先，数据集的语义关联依赖于DBpedia的主题类别体系，而DBpedia的类别体系本身可能存在不一致性或覆盖不全的问题，这可能导致数据集关联的准确性和完整性受到影响。其次，数据集的排序模型评估涉及多种算法（如基于社会网络分析的算法和贝叶斯分类器），如何在不同特征表示（如链接集和主题类别）下实现模型性能的公平比较，是一个复杂的技术难题。此外，数据集的构建过程中需要处理多源异构数据的整合与清洗，这对数据质量和一致性提出了较高要求。

常用场景

经典使用场景

Linked Data数据集在语义网和知识图谱领域具有广泛的应用，尤其是在数据集排名模型的评估中。通过使用VoID词汇描述数据集，并结合DBpedia的主题类别和命名实体识别技术，该数据集为研究者提供了一个标准化的实验平台。经典的使用场景包括基于社会网络分析和贝叶斯分类器的排名模型评估，以及基于余弦相似度和JRip、J48分类器的模型验证。这些实验通常通过交叉验证的方式进行，确保模型的泛化能力和稳定性。

解决学术问题

该数据集解决了语义网领域中的多个关键问题，尤其是数据集排名和关联性评估的挑战。通过提供标准化的数据集描述和实验数据，研究者能够更准确地评估不同排名算法的性能。此外，数据集中的主题类别和命名实体链接为知识图谱的构建和扩展提供了重要支持，帮助研究者更好地理解数据集之间的语义关联。这一工作为语义网和知识图谱领域的研究提供了重要的数据基础和方法论支持。

实际应用

在实际应用中，Linked Data数据集被广泛用于知识图谱的构建、语义搜索和推荐系统的开发。例如，在推荐系统中，通过分析数据集之间的关联性和主题类别，系统能够更精准地推荐相关内容。此外，该数据集还被用于跨领域数据集成，帮助不同领域的研究者共享和重用数据资源。这些应用不仅提高了数据的使用效率，还推动了跨学科研究的深入发展。

数据集最近研究