GEO (Gene Expression Omnibus)|基因组学数据集|数据存储数据集

www.ncbi.nlm.nih.gov2024-10-23 收录

基因组学

数据存储

下载链接：

https://www.ncbi.nlm.nih.gov/geo/

下载链接

链接失效反馈

资源简介：

GEO (Gene Expression Omnibus) 是一个公共功能基因组学数据存储库，由美国国立卫生研究院（NIH）的国家生物技术信息中心（NCBI）维护。它收集、存储和分发来自高通量基因表达和基因分型实验的原始数据和处理后的数据。GEO 数据集包括基因表达数据、基因分型数据、甲基化数据等多种类型的功能基因组学数据。

提供机构：

www.ncbi.nlm.nih.gov

AI搜集汇总

数据集介绍

构建方式

GEO（Gene Expression Omnibus）数据集的构建基于全球范围内的基因表达研究。该数据集通过收集、整理和标准化来自不同实验室和研究项目的基因表达数据，形成一个庞大的数据库。其构建过程包括数据提交、质量控制、标准化处理和数据存储，确保了数据的可靠性和可重复性。

特点

GEO数据集的特点在于其广泛性和多样性。它涵盖了多种生物样本类型、实验条件和基因表达技术，包括微阵列和RNA测序等。此外，GEO提供了丰富的元数据信息，如样本描述、实验设计和技术细节，便于用户进行深入的生物信息学分析。

使用方法

GEO数据集的使用方法多样，适用于基因表达分析、生物标志物发现和疾病研究等领域。用户可以通过在线平台访问数据，进行数据下载、查询和可视化。此外，GEO还支持数据集成和交叉验证，帮助研究人员在不同实验条件下比较和验证基因表达模式。

背景与挑战

背景概述

基因表达综合数据库（Gene Expression Omnibus, GEO）是由美国国立卫生研究院（NIH）下属的国家生物技术信息中心（NCBI）于2000年创建的，旨在为全球科研人员提供一个开放的基因表达数据存储和共享平台。GEO的核心研究问题是如何在高通量基因表达数据中提取有价值的信息，以推动生物医学研究的发展。该数据集不仅收录了来自各种实验平台的基因表达数据，还提供了丰富的元数据，帮助研究人员进行数据分析和挖掘。GEO的建立极大地促进了基因表达研究的标准化和数据共享，对生物信息学和基因组学领域产生了深远的影响。

当前挑战

尽管GEO在基因表达数据共享方面取得了显著成就，但其面临的挑战依然严峻。首先，数据质量的参差不齐是一个主要问题，不同实验平台和研究团队的数据标准化程度不一，导致数据整合和分析的复杂性增加。其次，随着数据量的急剧增长，如何高效地存储、检索和处理这些海量数据成为了一个技术难题。此外，数据隐私和安全问题也日益凸显，如何在保证数据开放性的同时，确保个人和研究机构的隐私不被侵犯，是GEO需要解决的重要问题。最后，数据的可重复性和验证性也是一大挑战，确保不同研究团队能够基于相同的数据集得出一致的结论，是推动科学进步的关键。

发展历史

创建时间与更新

GEO（Gene Expression Omnibus）数据集由美国国立卫生研究院（NIH）于2000年创建，旨在为全球科研人员提供一个开放的基因表达数据存储和共享平台。自创建以来，GEO不断更新，以适应快速发展的基因组学研究需求，最新数据更新至2023年。

重要里程碑

GEO的创建标志着基因表达数据共享和分析进入了一个新的时代。2003年，GEO发布了其首个大规模基因表达数据集，极大地推动了基因组学研究的进展。2008年，GEO引入了Microarray Quality Control (MAQC)项目，通过标准化数据质量控制流程，提升了数据的可信度和重复性。2015年，GEO开始支持高通量测序数据的存储和共享，进一步扩展了其应用范围。

当前发展情况

当前，GEO已成为全球最大的基因表达数据存储库之一，涵盖了从微阵列到高通量测序等多种技术平台的数据。GEO不仅为基因表达研究提供了丰富的数据资源，还通过其强大的数据分析工具和平台，促进了跨学科的合作与创新。GEO的发展对生物医学研究、药物开发和精准医疗等领域产生了深远影响，推动了基因组学研究的快速发展和应用。

发展历程

GEO (Gene Expression Omnibus) 由美国国立卫生研究院 (NIH) 的国家生物技术信息中心 (NCBI) 首次发布，旨在为基因表达数据提供一个公共存储和分析平台。
1999年
GEO 开始接受来自全球研究人员的基因表达数据提交，标志着其作为公共数据库的正式启动。
2000年
GEO 引入了 GEO Profiles 功能，允许用户创建和共享自定义的基因表达数据集，增强了数据的可访问性和互操作性。
2003年
GEO 发布了 GEO Datasets (GDS)，这是一个经过预处理的基因表达数据集集合，便于研究人员进行快速数据分析和比较。
2005年
GEO 推出了 GEO2R，一个基于网页的工具，允许用户在线进行基因表达数据的实时分析和比较。
2008年
GEO 开始支持高通量测序数据的提交和存储，标志着其从微阵列数据向新一代测序数据的扩展。
2012年
GEO 引入了 GEO DataSets (GSE) 的批量下载功能，极大地提高了数据获取的效率。
2015年
GEO 发布了 GEO DataSets (GSE) 的 API，使得开发者能够更方便地集成和利用 GEO 的数据资源。
2018年
GEO 继续扩展其数据存储和分析功能，支持更多类型的生物数据，包括单细胞测序数据。
2020年

常用场景

经典使用场景

在基因表达研究领域，GEO（Gene Expression Omnibus）数据集被广泛用于分析和比较不同实验条件下的基因表达水平。研究者通过该数据集可以获取大量经过标准化处理的基因表达数据，从而进行跨样本、跨实验的系统性分析。这种跨平台的数据整合能力使得GEO成为基因表达研究中的重要资源，尤其在探索疾病机制、药物反应和生物标志物发现等方面具有显著优势。

解决学术问题

GEO数据集解决了基因表达研究中数据共享和整合的难题。通过提供一个统一的、可访问的数据库，GEO促进了全球范围内的科研合作，使得研究者能够利用大规模的基因表达数据进行复杂分析。这不仅加速了基因功能和调控网络的研究，还为个性化医疗和精准医学的发展提供了坚实的基础。此外，GEO的标准化数据处理流程也提高了研究结果的可重复性和可靠性。

衍生相关工作

基于GEO数据集，许多后续研究工作得以开展，形成了丰富的学术成果。例如，TCGA（The Cancer Genome Atlas）项目利用GEO数据集中的基因表达数据，结合其他组学数据，系统地分析了多种癌症的基因组特征。此外，GEO数据集还催生了多个生物信息学工具和算法，如用于基因表达数据分析的R包和Python库，这些工具极大地提升了数据处理和分析的效率。这些衍生工作不仅扩展了GEO的应用范围，也推动了基因表达研究的整体进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Global Solar Dataset

在快速扩展的太阳能领域，找到全面的国家规模光伏（PV）数据集可能具有挑战性。资源通常分散在多个网站和API中，质量和可访问性差异显著。该仓库旨在通过将这些数据集的位置集中到一个位置来简化对这些数据集的访问，从而支持研究并促进新旧市场中太阳能预测模型的开发。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

Desert Knowledge Australia Solar Centre PV Power Data

该数据集包含来自澳大利亚Alice Springs的Site 7的太阳能发电数据，包括有功功率（AP，kW）、历史温度（T，℃）、相对湿度（RH，%）、全球水平辐照度（GHI，Wh/m²）和漫射水平辐照度（DHI，Wh/m²）。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集，包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境，包括行人、车辆、自行车等多种目标，以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集，手动标注了超过260万个目标边界框，并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录