fairly

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/ITC-CRIB/fairly

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于创建、发布和克隆研究数据集的软件包。

A software package designed for creating, publishing, and cloning research datasets.

创建时间：

2022-08-01

原始信息汇总

数据集概述

数据集名称

名称: fairly

数据集描述

描述: 一个用于创建、发布和克隆研究数据集的包。

数据集功能

功能:
- 初始化本地数据集并设置元数据。
- 添加数据文件。
- 保存数据集。
- 上传数据集至数据存储库。
- 访问远程数据集并存储至本地。

支持的平台

支持的平台:
- Invenio
- Figshare
- Djehuty (实验性)

安装要求

安装要求:
- Python 3.8或更高版本。
- ruamel.yaml 版本0.17.26或更高版本。

安装方法

安装方法:
- 使用pip安装: pip install fairly
- 使用conda安装: conda install conda-forge::fairly

使用示例

使用示例:
- 创建本地研究数据集并上传至存储库。
- 访问远程数据集并存储至本地。

测试

测试: 使用pytest命令在根目录运行单元测试。

贡献指南

贡献指南: 参考CONTRIBUTING.md文件了解如何参与此开源项目。

许可证

许可证: MIT

致谢

致谢: 该项目由荷兰研究理事会(NWO)开放科学基金资助。

搜集汇总

数据集介绍

构建方式

在构建fairly数据集时，研究者们采用了模块化的设计理念，旨在简化科研数据集的创建、发布与克隆流程。该数据集通过整合多种研究数据管理平台，如Invenio、Figshare和Djehuty，确保了数据的高效管理与共享。此外，数据集的构建还依赖于Python编程语言及其相关库，如ruamel.yaml，以实现数据的自动化处理与存储。

特点

fairly数据集的显著特点在于其跨平台的兼容性与易用性。该数据集支持多种研究数据管理平台，并提供了丰富的API接口，便于用户在不同平台间无缝切换。此外，数据集还具备强大的元数据管理功能，用户可以轻松设置和更新数据集的元数据，确保数据的规范性与可追溯性。

使用方法

使用fairly数据集时，用户可以通过Python脚本或命令行工具进行操作。首先，用户可以初始化本地数据集并设置相关元数据，随后添加数据文件并保存。数据集支持上传至多个远程数据仓库，如Zenodo和Figshare。此外，用户还可以通过数据集的DOI号访问远程数据集，并将其克隆至本地进行进一步处理。详细的文档和示例代码可在官方文档中查阅。

背景与挑战

背景概述

fairly数据集由荷兰研究委员会（NWO）开放科学基金资助，由University of Twente的Center of Expertise in Big Geodata Science、TU Delft的Digital Competence Centre以及4TU.ResearchData等机构共同开发。该数据集的核心研究问题围绕如何创建、发布和克隆研究数据集，旨在促进研究数据的共享与复用，提升数据的可发现性、可访问性、互操作性和可重用性（FAIR原则）。通过支持多种研究数据管理平台，如Invenio、Figshare和Djehuty，fairly数据集为研究人员提供了一个高效的数据管理工具，推动了开放科学的发展。

当前挑战

fairly数据集在构建过程中面临多项挑战。首先，如何在不同研究数据管理平台之间实现无缝的数据交换与共享，确保数据的互操作性，是一个复杂的技术难题。其次，数据集的元数据标准化与管理也是一个重要挑战，尤其是在处理多源异构数据时，如何确保元数据的准确性和一致性。此外，数据集的版本控制与更新机制也需要进一步优化，以支持研究数据的持续演进与管理。最后，如何提升数据集的用户体验，简化数据创建、发布和克隆的操作流程，也是fairly数据集需要解决的关键问题。

常用场景

经典使用场景

在科研数据管理领域，fairly数据集的典型应用场景主要体现在其对研究数据集的创建、发布和克隆过程的自动化支持。通过fairly，研究者能够便捷地初始化本地数据集，设置元数据，并将其上传至如Zenodo、Figshare等支持的研究数据管理平台。此外，fairly还支持从远程数据集中提取信息并将其存储至本地，极大地简化了数据集的管理与共享流程。

衍生相关工作

fairly数据集的推出催生了一系列相关研究和工作，特别是在数据管理自动化和元数据标准化领域。例如，基于fairly的JupyterLab扩展正在开发中，旨在进一步简化数据集的操作与分析。此外，fairly的成功应用也激发了更多关于如何优化科研数据管理流程的研究，推动了数据科学领域的技术进步。

数据集最近研究