SRA (Sequence Read Archive)|高通量测序数据集|生物信息学数据集

www.ncbi.nlm.nih.gov2024-10-26 收录

高通量测序

生物信息学

下载链接：

https://www.ncbi.nlm.nih.gov/sra

下载链接

链接失效反馈

资源简介：

SRA (Sequence Read Archive) 是一个存储高通量测序数据的公共数据库，涵盖了各种生物学研究领域的测序数据，包括基因组、转录组、表观基因组等。

提供机构：

www.ncbi.nlm.nih.gov

AI搜集汇总

数据集介绍

构建方式

SRA（Sequence Read Archive）数据集的构建基于全球范围内的生物学研究项目，这些项目通过高通量测序技术生成大量的序列数据。数据集的构建过程包括从研究者提交的原始测序数据中提取、标准化和存储序列信息。这些数据经过严格的质控流程，确保其质量和一致性，最终形成一个庞大的、多样的序列数据库，涵盖了从微生物到人类基因组的广泛领域。

特点

SRA数据集以其海量的数据规模和多样性著称，包含了来自不同物种、不同实验设计和不同测序平台的数据。其特点在于数据的开放性和可访问性，支持全球科研人员进行数据共享和再利用。此外，SRA数据集还提供了丰富的元数据信息，包括样本来源、实验条件和测序参数等，这些信息为数据的深入分析和解读提供了重要支持。

使用方法

SRA数据集的使用方法多样，科研人员可以通过NCBI提供的在线工具或编程接口（如SRA Toolkit）访问和下载所需数据。用户可以根据研究需求，选择特定的数据子集进行分析，如基因表达谱分析、变异检测和基因组组装等。此外，SRA数据集还支持与其他生物信息学数据库的集成，如GEO和GenBank，从而实现跨数据库的数据整合和综合分析。

背景与挑战

背景概述

SRA（Sequence Read Archive）数据集由美国国家生物技术信息中心（NCBI）于2007年推出，旨在存储和分发高通量测序数据。随着基因组学和生物信息学的迅猛发展，SRA迅速成为全球科研人员获取和共享测序数据的主要平台。其不仅支持多种测序技术，如Illumina、PacBio和Oxford Nanopore，还涵盖了从微生物到人类的各种生物样本。SRA的建立极大地促进了基因组学研究的进展，为疾病诊断、药物开发和生态研究提供了丰富的数据资源。

当前挑战

尽管SRA在数据存储和共享方面取得了显著成就，但其构建过程中仍面临诸多挑战。首先，数据量的急剧增长对存储和计算资源提出了巨大需求。其次，不同测序技术和平台的多样性导致数据格式和质量参差不齐，增加了数据整合和分析的复杂性。此外，数据隐私和安全问题也是SRA必须应对的重要挑战，尤其是在涉及人类基因数据时。最后，如何确保数据的长期保存和可访问性，以支持未来科学研究的需求，也是SRA需要持续关注的问题。

发展历史

创建时间与更新

SRA（Sequence Read Archive）创建于2007年，由美国国家生物技术信息中心（NCBI）推出，旨在存储和管理高通量测序数据。自创建以来，SRA持续进行更新和扩展，以适应不断增长的测序数据需求。

重要里程碑

SRA的重要里程碑包括2011年与欧洲生物信息学研究所（EBI）的ENA（European Nucleotide Archive）达成数据共享协议，实现了全球范围内的数据互通。2017年，SRA引入了新的数据提交和访问系统，显著提升了数据处理和检索的效率。此外，SRA还积极参与国际合作，推动了全球基因组数据的统一标准和共享机制。

当前发展情况

当前，SRA已成为全球最大的高通量测序数据存储库之一，涵盖了从人类基因组到微生物多样性的广泛领域。其数据不仅支持基础生物学研究，还在临床诊断、药物开发和公共卫生等领域发挥着重要作用。SRA的持续发展不仅推动了基因组学研究的进步，也为全球科研合作提供了坚实的基础。

发展历程

SRA (Sequence Read Archive) 首次由美国国家生物技术信息中心 (NCBI) 发布，作为全球基因组数据存储和共享的重要平台。
2007年
SRA 开始接受来自大规模基因组测序项目的数据提交，标志着其作为基因组数据存储库的正式启动。
2008年
SRA 引入了数据标准化和元数据注释的改进，以提高数据的可访问性和互操作性。
2010年
SRA 与欧洲生物信息学研究所 (EBI) 的欧洲核苷酸档案 (ENA) 达成合作，实现了全球范围内的基因组数据共享。
2012年
SRA 推出了新的数据提交工具和用户界面，简化了数据提交流程，提高了用户的使用体验。
2014年
SRA 开始支持单细胞测序数据的存储和共享，进一步扩展了其数据类型的覆盖范围。
2016年
SRA 引入了数据质量控制和验证机制，确保存储数据的高质量和可靠性。
2018年
SRA 实现了与云平台的集成，提供了更高效的数据存储和访问解决方案。
2020年

常用场景

经典使用场景

在生物信息学领域，SRA（Sequence Read Archive）数据集被广泛用于存储和共享高通量测序数据。其经典使用场景包括基因组学、转录组学和表观遗传学研究。通过SRA，研究人员可以访问来自全球各地的测序数据，进行基因表达分析、变异检测和表观遗传修饰研究，从而推动生物医学领域的科学发现。

衍生相关工作

SRA数据集的广泛应用催生了众多相关研究工作。例如，基于SRA数据的基因组浏览器和分析工具的开发，使得研究人员能够更直观地探索基因组信息。此外，SRA数据还促进了生物信息学算法的发展，如基因组比对和变异检测算法的优化。这些衍生工作不仅提高了数据分析的效率，还推动了生物信息学领域的技术进步。

数据集最近研究

相关研究论文

1
The Sequence Read Archive: explosive growth of sequencing dataNational Center for Biotechnology Information · 2011年
2
The NCBI Sequence Read ArchiveNational Center for Biotechnology Information · 2016年
3
The Sequence Read Archive: high-throughput sequencing data for diverse biological samplesNational Center for Biotechnology Information · 2013年
4
The NCBI Sequence Read Archive: update 2019National Center for Biotechnology Information · 2019年
5
The NCBI Sequence Read Archive: a global resource for high-throughput sequencing dataNational Center for Biotechnology Information · 2018年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准，尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率（VHR，0.5m/像素）Google Earth (GE) 图像块对组成，大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化，尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里，我们关注与建筑相关的变化，包括建筑增长（从土壤/草地/硬化地面或在建建筑到新建筑区域的变化）和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签（1 表示变化，0 表示不变）进行注释。我们数据集中的每个样本都由一个注释器进行注释，然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录