datasets.json

github2024-03-08 更新2024-05-31 收录

下载链接：

https://github.com/NYU-CI/RCDatasets

下载链接

链接失效反馈

官方服务：

资源简介：

该文件包含了用于知识图谱工作的数据集列表，作为ground truth。每个数据集记录必须包含提供者、标题、唯一标识符等字段，并可能包含其他元数据如关键词、地理覆盖范围等。

This document contains a list of datasets utilized for knowledge graph (知识图谱) tasks, serving as the ground truth. Each dataset entry must include fields such as the provider, title, unique identifier, and may also encompass additional metadata like keywords, geographical coverage, and more.

创建时间：

2019-09-11

原始信息汇总

数据集概述

数据集文件

文件名: datasets.json
用途: 作为ADRF和Rich Context中知识图谱工作的“ground truth”。

数据集管理

更新流程: 通过GitHub的pull request进行，并需经过代码审查。
更新步骤:
1. 从master分支创建新分支进行工作。
2. 检查其他正在进行中的pull request并记录使用的ID。
3. 在Slack的rich_context频道请求最多5个ID。
4. 在新分支中进行编辑。
5. 通过python test.py进行单元测试确认。

数据集记录要求

必填字段:
- provider: 数据提供者的名称，需在providers.json中存在。
- title: 数据集的名称。
- id: 唯一的顺序标识符。
命名规则: 使用数据提供者在网页上显示的名称，并尽量简洁。
添加记录步骤:
- 确保providers.json中的条目正确。
- 将新记录添加到文件底部。
- 手动增加id号。

可选字段

alt_title: 替代标题或缩写列表。
url: 数据集主页的URL。
doi: 数据提供者分配的唯一持久标识符。
alt_ids: 其他唯一标识符列表。
description: 数据集的简短描述。
date: 出版日期。

待办事项

对数据集条目进行质量检查，包括URL、标题等。
统一命名规则。
讨论“项目数据”是否为数据集。

数据集元数据扩展

可能包含的额外元数据:
- keywords 和 categories: 与数据集相关的关键词和分类。
- geographical coverage: 数据集覆盖的地理区域。
- temporal coverage: 数据集的时间范围。
- data steward: 负责保护和共享数据集的人员。
- customer: 请求将数据集加入知识图谱的客户或合作伙伴。
- long_description: 数据集的详细描述。
- in_adrf: 指示数据集是否在ADRF中。
- funder: 资助数据集创建或传播的组织。

搜集汇总

数据集介绍

构建方式

`datasets.json`数据集的构建过程严格遵循知识图谱更新的ETL工作流程，确保数据的准确性和一致性。该数据集作为ADRF和Rich Context项目中知识图谱的“基准真相”，其更新通过独立的代码库进行管理，以确保元数据的完整性。每次更新均需通过拉取请求（pull request）的方式提交，并经过代码审查，避免对下游知识图谱的链接造成破坏。更新过程中，开发者需在独立分支上工作，确保ID的唯一性，并通过单元测试验证数据的正确性。

特点

`datasets.json`数据集的核心特点在于其作为元数据的角色，而非原始数据本身。它包含了数据集的提供者、标题、唯一标识符等必要字段，并支持扩展字段如替代标题、URL、DOI等，以丰富数据集的描述信息。该数据集的设计注重简洁性和一致性，确保每个记录的信息准确无误。此外，数据集还支持未来扩展，可通过添加关键词、地理覆盖范围、时间覆盖范围等元数据字段，进一步提升其应用价值。

使用方法

使用`datasets.json`数据集时，开发者需首先确保`providers.json`文件中的提供者信息准确无误。新增记录时，需将其添加至文件末尾，并手动递增唯一标识符。数据集的使用场景主要集中于知识图谱的构建与更新，开发者可通过其提供的元数据信息，快速定位和链接相关数据集。此外，数据集支持通过单元测试进行一致性检查，确保数据的完整性和准确性。未来，该数据集还可通过添加更多元数据字段，进一步扩展其应用范围。

背景与挑战

背景概述

`datasets.json`数据集作为ADRF（American Data Research Facility）和Rich Context项目中的知识图谱工作的基础，旨在提供标准化的元数据信息，以支持数据集的链接与整合。该数据集由相关研究团队于近年创建，主要用于记录和描述各类数据集的元数据信息，包括数据提供者、数据集标题、唯一标识符等关键字段。通过这一数据集，研究人员能够更高效地管理和查询数据资源，促进跨领域的数据共享与协作。该数据集在知识图谱构建和数据集成领域具有重要影响力，为数据驱动的科学研究提供了坚实的元数据基础。

当前挑战

`datasets.json`数据集在构建和应用过程中面临多重挑战。首先，作为元数据集合，其核心任务是确保数据集的准确链接与整合，这要求对每条记录的字段进行严格审核，以避免因更新错误导致的知识图谱断裂。其次，数据集的构建过程需依赖人工操作，包括手动分配唯一标识符、验证数据提供者信息等，这一过程不仅耗时，还容易引入人为错误。此外，数据集的质量控制也面临挑战，例如URL的有效性检查、命名规范的一致性维护等。最后，随着数据集的扩展，如何高效地引入和整合额外的元数据字段（如地理覆盖范围、时间范围等）也成为亟待解决的问题。

常用场景

经典使用场景

在知识图谱构建与更新的过程中，`datasets.json`文件作为核心元数据源，被广泛应用于数据集的标识与链接。其经典使用场景包括在ADRF和Rich Context项目中，作为知识图谱的“基准真相”，确保数据集的唯一性和一致性。通过该文件，研究者能够高效地管理和更新数据集信息，避免在知识图谱中产生断裂或错误的链接。

解决学术问题

`datasets.json`文件解决了知识图谱构建中数据集标识与链接的难题。通过提供唯一的标识符和必要的元数据字段，该文件确保了数据集在知识图谱中的准确映射与整合。这一机制不仅提升了知识图谱的构建效率，还避免了因数据集信息不一致或缺失而导致的学术研究误差，为知识图谱的可靠性和可扩展性提供了坚实基础。

衍生相关工作

基于`datasets.json`文件，衍生了一系列与知识图谱构建和数据集管理相关的经典工作。例如，Rich Context项目利用该文件实现了数据集的高效链接与整合，推动了知识图谱在社会科学研究中的应用。此外，该文件还为其他领域的数据集管理提供了参考框架，促进了跨领域数据资源的共享与协作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集