five

nanopubs

收藏
github2024-05-15 更新2024-05-31 收录
下载链接:
https://github.com/RiverBench/dataset-nanopubs
下载链接
链接失效反馈
官方服务:
资源简介:
Nanopublications是用于科学成果和其他信息的小型发布单位。该数据集基于2018年4月5日所有可用Nanopublications的一个子集,仅包含前500万个自由许可的Nanopubs。每个Nanopub由几个RDF图组成,因此是一个RDF数据集。包含的数据主要来自生物医学领域。

Nanopublications are small units of publication used for scientific achievements and other information. This dataset is based on a subset of all available Nanopublications as of April 5, 2018, and includes only the first 5 million freely licensed Nanopubs. Each Nanopub consists of several RDF graphs, making it an RDF dataset. The included data primarily originates from the biomedical field.
创建时间:
2023-04-30
原始信息汇总

数据集概述

基本信息

  • 标题: Nanopublications
  • 标识符: nanopubs
  • 版本: dev
  • 主题:
    • Metadata
    • Open data
    • Open science
    • Research results
    • Scientific research
  • 创建者:
    • Authors of the included nanopublications (cited within the dataset)
    • Tobias Kuhn
    • Piotr Sowiński (Nickname: Ostrzyciel)
  • 许可证: CC-BY-SA-3.0
  • 来源: https://doi.org/10.5281/zenodo.1213293
  • 权利: 包含自由许可的出版物,每个纳米出版物包含其原始作者信息并自我引用。
  • 发布日期: 2023-04-30
  • 修改日期: 2024-06-05
  • 着陆页: https://w3id.org/riverbench/datasets/nanopubs/dev
  • 符合标准: 符合Metadata标准

技术元数据

分布

完整流分布

  • 标题: Full stream distribution
  • 标识符: stream-full
  • 文件名: stream_full.tar.gz
  • 流类型使用: RDF dataset stream
  • 分布类型: 完整分布, 流分布
  • 流元素计数: 5,000,000
  • 字节大小: 1.02 GB
  • 媒体类型: application/trig
  • 打包格式: application/tar
  • 压缩格式: application/gzip
  • 下载URL: https://w3id.org/riverbench/datasets/nanopubs/dev/files/stream_full.tar.gz

完整Jelly分布

  • 标题: Full Jelly distribution
  • 标识符: jelly-full
  • 文件名: jelly_full.jelly.gz
  • 流类型使用: Flat RDF quad stream, RDF dataset stream
  • 分布类型: 完整分布, Jelly分布
  • 流元素计数: 5,000,000
  • 字节大小: 1.50 GB
  • 媒体类型: application/x-jelly-rdf
  • 压缩格式: application/gzip
  • 下载URL: https://w3id.org/riverbench/datasets/nanopubs/dev/files/jelly_full.jelly.gz

完整平面分布

  • 标题: Full flat distribution
  • 标识符: flat-full
  • 文件名: flat_full.nq.gz
  • 流类型使用: 未提供完整信息
  • 分布类型: 未提供完整信息
  • 流元素计数: 未提供完整信息
  • 字节大小: 未提供完整信息
  • 媒体类型: 未提供完整信息
  • 压缩格式: 未提供完整信息
  • 下载URL: 未提供完整信息
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为‘nanopubs’,其构建基于2018年4月5日从所有可用纳米出版物中提取的一个子集,具体来源于[Zenodo平台上的纳米出版物数据集](https://zenodo.org/record/1213293)。数据集仅包含前500万条自由许可的纳米出版物,这些出版物主要来自生物医学领域。每条纳米出版物由多个RDF图组成,因此整个数据集可视为一个RDF数据集。
特点
该数据集的显著特点在于其结构化的纳米出版物形式,每条出版物均包含多个RDF图,形成了一个复杂的RDF数据集。此外,数据集的许可协议为CC BY-SA 3.0,确保了数据的自由使用和共享。数据集的内容主要集中在生物医学领域,具有较高的专业性和应用价值。
使用方法
用户可以通过下载完整的数据流或使用Jelly格式的数据进行分析。数据集支持多种RDF流类型的使用,包括RDF数据集流和平面RDF四元组流。用户可以根据需求选择不同的数据格式和压缩方式,如Trig格式或N-Quads格式,并通过提供的下载链接获取数据。
背景与挑战
背景概述
纳米出版物(Nanopublications)数据集是由Tobias Kuhn和Piotr Sowiński等研究人员创建的,旨在为科学研究提供一种小型可发布信息单元。该数据集基于2018年4月5日从所有可用纳米出版物中提取的子集,包含了500万条自由许可的纳米出版物,主要来自生物医学领域。每个纳米出版物由多个RDF图组成,形成一个RDF数据集。该数据集的创建不仅推动了开放科学和开放数据的发展,还为科学研究结果的共享和引用提供了新的可能性。
当前挑战
纳米出版物数据集在构建过程中面临多项挑战。首先,如何从海量的科学数据中筛选出高质量、自由许可的纳米出版物是一个复杂的问题。其次,纳米出版物的RDF格式要求高度的标准化和一致性,以确保数据的可互操作性和可重用性。此外,数据集的规模庞大,处理和存储这些数据需要高效的计算资源和技术支持。最后,确保数据集的长期维护和更新也是一个重要的挑战,以适应不断变化的科学研究需求和技术环境。
常用场景
经典使用场景
在科学研究领域,nanopubs数据集的经典使用场景主要集中在生物医学领域。该数据集包含了500万条纳米出版物,每条纳米出版物由多个RDF图组成,这些图结构化地描述了科学研究结果。研究者可以利用这些纳米出版物进行知识图谱构建、数据挖掘以及科学文献的自动化分析,从而加速科学发现的进程。
实际应用
在实际应用中,nanopubs数据集被广泛用于生物医学领域的知识图谱构建和数据挖掘。例如,研究者可以通过分析纳米出版物中的RDF图,自动提取疾病与药物之间的关联信息,从而加速药物研发进程。此外,该数据集还可用于科学文献的自动化分析,帮助研究者快速获取和整合最新的科研成果。
衍生相关工作
基于nanopubs数据集,研究者开发了多种相关的经典工作。例如,有研究利用该数据集构建了生物医学领域的知识图谱,进一步推动了精准医学的发展。此外,还有研究通过分析纳米出版物中的RDF图,提出了新的数据挖掘算法,提升了科学文献的自动化分析效率。这些衍生工作不仅丰富了数据集的应用场景,还为科学研究提供了新的工具和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作