Computational reproducibility of Jupyter notebooks from biomedical publications

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/fusion-jena/fairjupyter

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集展示了从生物医学出版物中提取的Jupyter笔记本的计算可重复性研究。我们的重点是评估这些从GitHub仓库中提取并与PubMed Central中的出版物关联的Jupyter笔记本的可重复性程度。数据集包括期刊、出版物、出版物中提到的GitHub仓库以及这些仓库中的笔记本的元数据信息。

This dataset presents a computational reproducibility study of Jupyter notebooks extracted from biomedical publications. Our focus is on assessing the reproducibility of these Jupyter notebooks, which are extracted from GitHub repositories and associated with publications in PubMed Central. The dataset includes metadata information about the journals, publications, GitHub repositories mentioned in the publications, and the notebooks within these repositories.

创建时间：

2024-04-10

原始信息汇总

数据集概述

数据集名称

FAIR Jupyter Knowledge Graph

数据集描述

该数据集基于先前分享的计算可重复性数据集，专注于生物医学出版物中的Jupyter笔记本的计算可重复性研究。数据集通过知识图谱的形式，允许进行更细致的探索和查询，从而进一步推动数据集的利用。

数据集内容

元数据信息：包括期刊、出版物、GitHub仓库以及仓库中的笔记本信息。
数据来源：Sheeba Samuel和Daniel Mietchen于2023年发布的“生物医学出版物中Jupyter笔记本的计算可重复性研究”数据集。

数据集构建

数据转换：将原始数据集转换为语义三元组，并加载到三元组存储中，形成知识图谱。
资源使用：
- 代码：用于构建知识图谱的代码可在GitHub上获取。
- 映射：知识图谱的映射信息同样在GitHub上提供。

数据集访问

SPARQL端点：可通过指定URL进行查询。
SPARQL查询：提供了一系列可在知识图谱上执行的SPARQL查询。

知识图谱架构

使用的本体：包括REPRODUCE-ME、PROV-O、P-Plan、PAV、FaBiO和DOAP等本体。

数据集数据

数据格式：CSV格式，可在GitHub上获取。

相关出版物

主要出版物：Sheeba Samuel和Daniel Mietchen关于Jupyter笔记本计算可重复性的研究，发表于GigaScience。
知识图谱相关出版物：Sheeba Samuel和Daniel Mietchen关于FAIR Jupyter知识图谱的论文，可在arXiv预印本上查阅。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于从生物医学文献库PubMed Central中提取的Jupyter笔记本的计算可重复性研究。研究团队分析了与PubMed Central中发表的文献相关的GitHub仓库中的Jupyter笔记本的可重复性。数据集包括期刊、出版物、GitHub仓库的元数据信息以及仓库中的笔记本内容。通过将这些数据转换为语义三元组，并将其加载到三元存储中，构建了一个名为FAIR Jupyter的知识图谱，该图谱通过网络服务提供，支持细粒度的数据探索和分析。

特点

FAIR Jupyter数据集的显著特点在于其通过知识图谱的形式，提供了对Jupyter笔记本计算可重复性的细粒度探索能力。该数据集不仅包含了丰富的元数据信息，还通过SPARQL端点支持灵活的查询和分析。此外，数据集结合了多种本体（如REPRODUCE-ME、PROV-O等），增强了其语义表达能力，使其在生物医学领域的研究中具有广泛的应用潜力。

使用方法

用户可以通过访问FAIR Jupyter的知识图谱浏览器或SPARQL端点，进行细粒度的数据查询和分析。知识图谱浏览器提供了直观的界面，允许用户通过图形化方式探索数据。SPARQL端点则支持复杂的查询，用户可以编写自定义的SPARQL查询语句，以满足特定的研究需求。此外，数据集还支持与Wikidata等外部知识图谱的联合查询，进一步扩展了其应用范围。

背景与挑战

背景概述

在生物医学研究领域，计算可重复性已成为一个关键问题，尤其是在Jupyter笔记本的使用日益增多的背景下。该数据集由Sheeba Samuel和Daniel Mietchen于2023年创建，旨在评估从PubMed Central文献库中提取的与生物医学出版物相关的GitHub仓库中的Jupyter笔记本的计算可重复性。通过分析这些笔记本的元数据，研究人员能够深入了解其在实际应用中的可重复性水平，从而为生物医学领域的研究提供重要的参考价值。该数据集的发布不仅推动了计算可重复性研究的发展，还为相关领域的学者提供了宝贵的资源。

当前挑战

该数据集在构建过程中面临多项挑战。首先，确保从PubMed Central和GitHub中提取的数据的准确性和完整性是一个复杂的过程，涉及大量的数据清洗和验证工作。其次，将这些数据转换为语义三元组并构建知识图谱，需要对数据进行深入的语义分析和映射，以确保知识图谱的准确性和可用性。此外，如何有效地查询和利用知识图谱中的信息，以满足不同研究需求，也是一个重要的挑战。最后，确保数据集的长期可访问性和可维护性，尤其是在数据不断更新的情况下，也是一个不容忽视的问题。

常用场景

经典使用场景

该数据集的经典使用场景主要集中在生物医学领域的计算可重复性研究。通过分析与PubMed Central中生物医学文献相关的GitHub仓库中的Jupyter笔记本，研究者能够评估这些笔记本的计算可重复性。这一过程不仅涉及对笔记本内容的直接分析，还包括对相关元数据的深入挖掘，如期刊信息、出版物详情以及GitHub仓库的链接等。通过这种方式，研究者可以系统地评估和验证生物医学研究中的计算方法和结果的可重复性。

实际应用

在实际应用中，该数据集可用于多种场景，如科研机构和出版商在发表研究成果前进行可重复性检查，以确保研究结果的可靠性。此外，生物医学领域的研究人员可以利用该数据集来验证和优化自己的计算方法，确保其研究结果的可重复性。数据集还可用于教育和培训，帮助学生和研究人员理解并掌握计算可重复性的重要性及其在实际研究中的应用。

衍生相关工作

该数据集的发布催生了一系列相关研究工作，特别是在知识图谱和语义共享领域。例如，研究者利用该数据集构建了FAIR Jupyter知识图谱，通过语义三元组的形式进一步细化和探索数据集。此外，该数据集还启发了对计算可重复性更广泛的研究，包括与其他知识图谱（如Wikidata）的联合查询，以及对不同领域计算可重复性标准的探讨和制定。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集