GTEx|基因表达数据集|基因型分析数据集

gtexportal.org2024-10-24 收录

基因表达

基因型分析

下载链接：

https://gtexportal.org/

下载链接

链接失效反馈

资源简介：

GTEx（Genotype-Tissue Expression）数据集是一个大规模的基因表达研究项目，旨在研究基因型与组织表达之间的关系。该数据集包含了来自多个组织的基因表达数据，以及相应的基因型信息，用于分析基因变异对基因表达的影响。

提供机构：

gtexportal.org

AI搜集汇总

数据集介绍

构建方式

GTEx（Genotype-Tissue Expression）数据集的构建基于大规模的基因型与组织表达谱的关联研究。该数据集通过收集来自多个捐赠者的多种组织样本，利用高通量测序技术获取基因型信息，并结合RNA测序技术分析组织特异性基因表达水平。数据处理过程中，采用了严格的质控标准，确保数据的准确性和可靠性。

使用方法

GTEx数据集的使用方法多样，适用于多种生物医学研究。研究者可以通过分析基因表达数据，识别与特定疾病或生理状态相关的基因和通路。此外，结合基因型信息，可以进行全基因组关联分析（GWAS），探索基因变异对基因表达的影响。数据集的开放获取政策也促进了全球科研人员的合作与共享。

背景与挑战

背景概述

基因型-组织表达（Genotype-Tissue Expression, GTEx）数据集是由美国国立卫生研究院（NIH）于2010年启动的一项大规模研究项目，旨在探索基因型与组织特异性基因表达之间的关系。该项目通过收集来自不同组织和器官的样本，分析基因变异对基因表达的影响，为理解基因与疾病之间的关联提供了重要数据支持。GTEx数据集的建立标志着基因组学与转录组学研究的深度融合，极大地推动了精准医学的发展，并为后续的基因表达调控研究奠定了基础。

当前挑战

GTEx数据集在构建过程中面临了多重挑战。首先，样本的异质性问题，不同组织和个体间的基因表达差异巨大，增加了数据分析的复杂性。其次，技术限制，如RNA测序技术的准确性和重复性，对数据质量提出了高要求。此外，数据隐私和伦理问题也是一大挑战，如何在保护个体隐私的前提下，充分利用这些宝贵的生物信息资源，是研究者必须面对的难题。最后，数据整合与标准化问题，如何将来自不同实验和技术的数据进行有效整合，确保分析结果的可靠性和可重复性，也是当前亟待解决的问题。

发展历史

创建时间与更新

GTEx（Genotype-Tissue Expression）数据集创建于2010年，旨在研究基因型与组织表达之间的关系。该数据集自创建以来，经历了多次更新，最近一次主要更新是在2020年，引入了更多的样本和更详细的基因表达数据。

重要里程碑

GTEx项目的一个重要里程碑是在2013年，当时发布了首个大规模的基因表达数据集，涵盖了多个组织类型。这一发布标志着基因表达研究进入了一个新的时代，为后续的基因调控网络研究提供了坚实的基础。随后，2017年的更新进一步扩展了数据集的规模和深度，增加了对罕见变异和复杂性状的分析能力。

当前发展情况

当前，GTEx数据集已成为基因表达研究领域的核心资源，为科学家们提供了丰富的基因型和表达数据，极大地推动了个性化医学和精准医疗的发展。通过持续的数据更新和方法改进，GTEx项目不仅提升了对基因表达调控机制的理解，还为疾病相关基因的鉴定和功能研究提供了宝贵的资源。此外，GTEx数据集的开放获取政策促进了全球科研合作，加速了基因表达研究的进展。

发展历程

GTEx项目正式启动，旨在研究基因表达在不同人体组织中的变异情况。
2013年
首次发布GTEx数据集，包含来自53个组织的7000多个样本的基因表达数据。
2015年
GTEx数据集更新，增加了更多样本和组织类型，进一步丰富了基因表达数据的多样性。
2017年
GTEx项目发布第四版数据集，包含超过17000个样本，覆盖80多种组织类型，成为全球最大的基因表达数据库之一。
2020年

常用场景

经典使用场景

在基因表达研究领域，GTEx（Genotype-Tissue Expression）数据集被广泛用于探索基因型与组织特异性表达之间的关系。该数据集收集了来自不同组织和器官的基因表达数据，为研究人员提供了丰富的资源，以揭示基因在不同生理状态下的表达模式。通过分析GTEx数据，科学家们能够识别出与特定疾病或生理功能相关的关键基因，从而推动个性化医疗和精准医学的发展。

解决学术问题

GTEx数据集在解决基因表达调控的学术研究问题中发挥了重要作用。它帮助研究人员理解基因如何在不同组织中受到调控，揭示了组织特异性基因表达的复杂机制。此外，GTEx数据集还为研究基因变异与疾病风险之间的关系提供了宝贵的资源，有助于识别潜在的药物靶点和生物标志物。这些研究不仅深化了对基因功能的理解，还为疾病的预防和治疗提供了新的思路。

实际应用

在实际应用中，GTEx数据集为医学研究和临床实践提供了重要的支持。例如，通过分析GTEx数据，研究人员可以开发出针对特定基因变异的个性化治疗方案，提高治疗效果和患者生存率。此外，GTEx数据集还被用于构建基因表达数据库，为生物信息学工具的开发和优化提供了基础数据。这些应用不仅推动了基础科学研究，还促进了临床医学的进步。

数据集最近研究

相关研究论文

1
The Genotype-Tissue Expression (GTEx) pilot analysis: Multitissue gene regulation in humansBroad Institute of MIT and Harvard · 2015年
2
Genetic effects on gene expression across human tissuesBroad Institute of MIT and Harvard · 2017年
3
The impact of tissue heterogeneity on gene expression profiles in the Genotype-Tissue Expression (GTEx) projectUniversity of California, San Diego · 2020年
4
A survey of best practices for RNA-seq data analysisUniversity of California, Riverside · 2016年
5
Genetic regulatory effects on gene expression in human tissuesBroad Institute of MIT and Harvard · 2019年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录