NCBI Datasets

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/ncbi/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

NCBI Datasets是一个资源，允许用户轻松地从NCBI数据库中收集数据。可以使用命令行界面(CLI)工具或NCBI Datasets网页界面查找和下载基因和基因组的序列、注释和元数据。

NCBI Datasets is a resource that enables users to effortlessly gather data from the NCBI database. Users can utilize either the Command Line Interface (CLI) tool or the NCBI Datasets web interface to search for and download sequences, annotations, and metadata of genes and genomes.

创建时间：

2020-04-08

原始信息汇总

数据集概述

数据集名称

NCBI Datasets

数据集功能

提供从NCBI数据库中收集和下载序列、注释及元数据的功能。
支持通过命令行界面(CLI)工具或网页界面进行数据检索和下载。

数据集工具

命令行工具：包括datasets和dataformat。
- datasets：用于下载生物序列数据。
- dataformat：用于将元数据从JSON Lines格式转换为其他格式。

数据集安装

使用conda安装最新版本（CLI v16.x）：

conda install -c conda-forge ncbi-datasets-cli

数据集使用示例

下载人类参考基因组数据包：

datasets download genome taxon human --reference --filename human-reference.zip
提取人类参考基因组的元数据：

dataformat tsv genome --package human-reference.zip --fields organism-name,assminfo-name,accession,assminfo-submitter

数据集类型

提供四种数据包：
1. 基因数据包
2. 基因组数据包
3. 病毒基因组数据包
4. 分类学数据包

数据报告

数据包包含数据报告文件，提供所请求记录的元数据。
数据报告模式描述了每种数据报告的可用字段，包括描述和示例。

搜集汇总

数据集介绍

构建方式

NCBI Datasets数据集的构建基于NCBI数据库的广泛资源，通过整合基因组、基因序列、注释信息和元数据，形成一个综合性的生物信息资源。该数据集的构建过程包括数据采集、整合、标准化和打包，确保用户能够便捷地获取高质量的生物数据。数据集的构建还涉及对不同生物领域的数据进行分类和组织，以满足不同研究需求。

特点

NCBI Datasets数据集的特点在于其高度集成性和多样性。该数据集不仅涵盖了基因和基因组的序列数据，还包括详细的注释和元数据，支持多层次的生物信息学分析。此外，数据集提供了多种数据包类型，如基因数据包、基因组数据包、病毒数据包和分类数据包，适应不同研究领域的特定需求。数据集还支持大规模数据下载和处理，通过脱水（dehydrated）和再水化（rehydrate）机制，优化了数据传输和存储效率。

使用方法

NCBI Datasets数据集的使用方法灵活多样，用户可以通过命令行界面（CLI）工具或网页界面进行数据访问和下载。命令行工具如*datasets*和*dataformat*提供了强大的数据处理功能，支持基因组、基因序列和元数据的下载与格式转换。用户可以通过指定物种、基因或基因组标识符，快速获取所需数据。此外，数据集还支持大规模基因组数据的下载，通过脱水和再水化过程，用户可以高效地管理和访问大量生物数据。

背景与挑战

背景概述

NCBI Datasets是由美国国家生物技术信息中心（NCBI）开发的一项资源，旨在简化从NCBI数据库中收集数据的流程。该数据集自创建以来，已成为基因和基因组序列、注释及元数据获取的重要工具。主要研究人员包括O'Leary NA、Cox E等，他们在2024年发表的研究论文详细介绍了该数据集的功能和应用。NCBI Datasets通过其命令行界面（CLI）工具和网页界面，极大地促进了生物信息学领域的数据获取和分析，对基因组学和生物医学研究产生了深远影响。

当前挑战

尽管NCBI Datasets在数据获取方面提供了极大的便利，但其构建和维护过程中仍面临诸多挑战。首先，数据集的版本更新和兼容性问题，如CLI工具v13.x和API v1的即将弃用，要求用户及时更新以避免数据访问中断。其次，大规模基因组数据的下载和处理，尤其是脱水zip档案的下载、解压和重构过程，对计算资源和网络带宽提出了高要求。此外，数据报告文件的格式转换和字段选择，虽然提供了灵活性，但也增加了用户操作的复杂性。这些挑战不仅影响数据集的可用性，也对用户的技术能力提出了更高要求。

常用场景

经典使用场景

在生物信息学领域，NCBI Datasets数据集的经典使用场景主要集中在基因组数据的获取与分析。研究者可以通过该数据集快速下载人类参考基因组GRCh38的序列数据，并利用其提供的命令行工具进行数据格式转换，如将JSON Lines格式的元数据转换为TSV格式，以便于进一步的生物信息学分析。此外，该数据集还支持大规模基因组数据的下载，通过分步下载、解压和重构数据包，极大地简化了大规模基因组数据的处理流程。

解决学术问题

NCBI Datasets数据集解决了生物信息学研究中基因组数据获取与管理的常见问题。传统的基因组数据获取方式往往繁琐且耗时，而该数据集通过提供统一的接口和工具，使得研究者能够高效地获取、整理和分析基因组数据。这不仅加速了基因组学研究的进程，还为跨物种基因组比较研究提供了坚实的基础，推动了生物信息学领域的快速发展。

衍生相关工作

基于NCBI Datasets数据集，衍生了一系列重要的研究工作。例如，O'Leary等人在《Scientific Data》期刊上发表的文章详细介绍了如何利用NCBI Datasets进行跨物种序列和元数据的探索与检索，为基因组数据的广泛应用提供了理论支持。此外，该数据集还激发了大量关于基因组数据标准化和互操作性的研究，推动了生物信息学数据共享和协作的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集