NCBI Datasets

github2020-10-30 更新2024-05-31 收录

下载链接：

https://github.com/RochaLAJ/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

NCBI数据集是一个实验性资源，用于从NCBI数据库中收集和构建数据。它使用基于用户研究和访谈的迭代软件开发方法，旨在帮助用户更快、更轻松地找到所需数据，并以常见生物信息学工作流程可用的文件格式提供。

The NCBI dataset is an experimental resource designed to collect and construct data from the NCBI database. It employs an iterative software development approach based on user research and interviews, aiming to assist users in finding the required data more quickly and easily. The dataset is provided in file formats that are compatible with common bioinformatics workflows.

创建时间：

2020-10-30

原始信息汇总

数据集概述

数据集内容

基因组数据集：包括序列、注释和包含详细元数据的数据报告，涵盖所有生命域的生物。
病毒基因组和蛋白质数据集：特别包括SARS-CoV-2的数据，包含序列、注释、隔离信息、宿主、收集日期及其他元数据。其他冠状病毒家族的病毒基因组数据也提供。
基因数据集：通过API服务、命令行工具和最新的网页工具提供，涵盖NCBI Gene中所有基因（目前超过30,000种生物）。

数据集访问方式

RESTful API：使用Python包通过API获取数据集。
命令行工具：访问所有分类群的基因组数据。
网页界面：专注于真核生物基因组。

数据集工具

Python库：与API交互并处理下载数据的工具，相关文档可在GitHub仓库中找到。
Jupyter Notebooks：提供示例，帮助用户熟悉库函数。

注意事项

建议避免在同时包含google-cloud-bigquery和pandas-gbq包的环境中使用此数据集包，以避免依赖性问题。

搜集汇总

数据集介绍

构建方式

NCBI Datasets的构建基于用户研究和访谈的迭代软件开发方法，旨在帮助用户更快速、便捷地获取所需数据，并以适用于常见生物信息学工作流的文件格式呈现。该数据集整合了NCBI数据库中的基因组、基因和病毒数据，涵盖了所有生命领域的生物体，特别是最近新增的SARS-CoV-2病毒基因组和蛋白质数据集。通过RESTful API、命令行工具和网页界面，用户能够轻松访问这些数据。

特点

NCBI Datasets的特点在于其广泛的数据覆盖范围，包括基因组序列、注释文件以及包含详细元数据的数据报告。特别值得一提的是，该数据集提供了SARS-CoV-2及其他冠状病毒家族的病毒基因组数据，涵盖分离株、宿主、采集日期等关键信息。此外，基因数据集支持超过30,000种生物体的基因数据，并通过API、命令行工具和网页工具提供灵活的数据访问方式。

使用方法

用户可以通过Python包、RESTful API或命令行工具访问NCBI Datasets。Python包提供了与API交互的功能，并支持对下载数据的处理，建议用户通过GitHub仓库中的Jupyter Notebooks熟悉库函数。命令行工具适用于所有分类群的基因组数据访问，而网页界面则专注于真核生物基因组。基因数据可通过API、命令行工具或网页数据表获取。用户反馈是该项目的重要组成部分，鼓励用户提出任何问题或建议以优化服务。

背景与挑战

背景概述

NCBI Datasets是由美国国家生物技术信息中心（NCBI）开发的一项资源，旨在为用户提供跨NCBI数据库的数据集成服务。该数据集自推出以来，通过迭代式软件开发方法，结合用户研究和访谈，致力于帮助研究人员更快速、便捷地获取所需数据，并以适用于常见生物信息学工作流的文件格式呈现。NCBI Datasets涵盖了从基因组序列、注释到详细元数据报告的广泛数据，适用于所有生命领域的生物体。特别是在COVID-19疫情期间，NCBI Datasets新增了SARS-CoV-2病毒基因组和蛋白质数据集，为病毒研究提供了重要支持。此外，该资源还通过RESTful API、命令行工具和网页界面等多种方式，为用户提供基因数据集和真核生物基因组数据的访问服务。

当前挑战

NCBI Datasets在解决生物信息学领域的数据集成与访问问题时，面临多重挑战。首先，生物数据的多样性和复杂性要求数据集必须支持多种数据格式和元数据标准，以确保数据的可互操作性和可重复性。其次，随着数据量的快速增长，如何高效地存储、检索和传输大规模基因组数据成为技术瓶颈。此外，NCBI Datasets在构建过程中需应对用户需求的多样性和动态变化，通过持续的用户反馈优化工具和接口设计。最后，依赖性问题，如与某些Python包的兼容性冲突，也增加了数据集在实际应用中的技术复杂性。这些挑战不仅影响数据集的可用性，也对生物信息学研究的高效推进提出了更高要求。

常用场景

经典使用场景

NCBI Datasets 数据集在生物信息学领域中被广泛用于基因组数据的获取与分析。研究人员通过其提供的RESTful API、命令行工具和网页界面，能够快速获取包括序列、注释和元数据在内的基因组数据集。特别是在新冠病毒（SARS-CoV-2）的研究中，该数据集为病毒基因组和蛋白质数据的获取提供了重要支持，帮助科研人员深入理解病毒的传播机制和变异规律。

实际应用

在实际应用中，NCBI Datasets 被广泛用于基因组学研究的各个阶段。例如，在病毒监测中，科研人员利用其提供的病毒基因组数据，能够实时追踪病毒的变异情况，为公共卫生决策提供科学依据。此外，该数据集还被用于基因功能注释、物种进化分析以及药物靶点发现等领域，为生物医学研究和药物开发提供了重要的数据支持。

衍生相关工作

基于 NCBI Datasets，许多经典研究工作得以展开。例如，利用其提供的病毒基因组数据，科研人员开发了多种新冠病毒变异监测工具和预测模型。此外，该数据集还支持了多篇关于基因组注释、物种进化树构建和基因功能预测的高影响力论文的发表。这些工作不仅推动了生物信息学方法的发展，也为相关领域的科学研究提供了重要的数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集