Genotype-Tissue Expression (GTEx) v8|基因表达数据集|组织特异性数据集

gtexportal.org2024-10-26 收录

基因表达

组织特异性

下载链接：

https://gtexportal.org/home/datasets

下载链接

链接失效反馈

资源简介：

GTEx v8数据集包含了来自近1000名捐赠者的54种不同人体组织的基因表达数据，以及这些组织的基因型信息。该数据集旨在研究基因型与表型之间的关系，特别是基因表达在不同组织中的变异。

提供机构：

gtexportal.org

AI搜集汇总

数据集介绍

构建方式

在基因组学与转录组学的交汇点上，Genotype-Tissue Expression (GTEx) v8数据集通过大规模的基因型与组织表达数据收集，构建了一个全面的多组织表达谱。该数据集涵盖了来自近一千名捐赠者的多种组织样本，通过高通量测序技术，详细记录了每个样本的基因型和表达水平。数据处理流程包括基因型数据的质控、表达数据的归一化以及多组织表达矩阵的构建，确保了数据的高质量和一致性。

特点

GTEx v8数据集以其广泛的多组织覆盖和高质量的基因表达数据著称。该数据集不仅提供了基因型与表达水平之间的关联，还揭示了不同组织间基因表达的异质性。此外，数据集中的样本多样性和大规模的统计分析能力，使其成为研究基因表达调控网络和疾病相关基因的宝贵资源。GTEx v8的发布，极大地推动了个性化医学和复杂疾病研究的发展。

使用方法

GTEx v8数据集的使用方法多样，适用于多种生物信息学和统计学分析。研究者可以通过数据集中的基因型和表达数据，进行基因表达差异分析、组织特异性基因表达研究以及基因型与表型关联分析。此外，数据集的高质量表达矩阵和丰富的元数据，支持机器学习和深度学习模型的训练与验证。研究者还可以利用GTEx v8数据集进行跨组织基因表达网络分析，探索基因调控机制和疾病相关基因的表达模式。

背景与挑战

背景概述

Genotype-Tissue Expression (GTEx) v8数据集是由美国国立卫生研究院（NIH）下属的国立人类基因组研究所（NHGRI）主导，于2020年发布的最新版本。该数据集的核心研究问题在于揭示基因型与组织表达之间的复杂关系，旨在通过大规模的基因表达谱分析，深入理解基因变异对不同组织中基因表达的影响。GTEx v8涵盖了来自近1000名捐赠者的54种不同组织的基因表达数据，为遗传学、分子生物学和医学研究提供了宝贵的资源，极大地推动了个性化医疗和疾病机制研究的发展。

当前挑战

GTEx v8数据集在构建过程中面临诸多挑战。首先，数据的高维度与复杂性使得数据处理和分析变得极为复杂，需要高效的计算资源和先进的算法支持。其次，样本的异质性，包括不同个体的遗传背景、环境因素和生活方式的差异，增加了数据的标准化和解释难度。此外，数据隐私和伦理问题也是一大挑战，如何在确保数据安全的前提下，最大化数据的使用价值，是当前研究中亟待解决的问题。最后，如何将海量的基因表达数据转化为临床上有意义的生物标志物，仍需进一步的研究和验证。

发展历史

创建时间与更新

Genotype-Tissue Expression (GTEx) v8数据集于2013年首次创建，并在2020年进行了重大更新，标志着其在基因表达研究领域的持续发展和重要性。

重要里程碑

GTEx v8数据集的重要里程碑包括其在2017年发布的v7版本，该版本首次引入了大规模的多组织基因表达数据，极大地推动了基因与环境相互作用的研究。2020年发布的v8版本进一步扩展了样本数量和组织类型，提供了更为详尽的基因表达谱，显著提升了其在精准医学和遗传学研究中的应用价值。

当前发展情况

当前，GTEx v8数据集已成为基因表达研究的重要资源，其数据被广泛应用于解析基因变异与疾病风险之间的关系。通过提供高质量的多组织基因表达数据，GTEx v8不仅促进了基础生物学研究，还为个性化医疗和药物开发提供了关键数据支持。其持续的更新和扩展，确保了数据集在生命科学领域的长期影响力和应用潜力。

发展历程

GTEx项目正式启动，旨在研究基因型与组织表达之间的关系。
2013年
GTEx v6数据集首次发布，包含来自53个组织的9,000多个样本的基因表达数据。
2015年
GTEx v7数据集发布，样本数量增加至17,000多个，涵盖54个组织，提供了更全面的基因表达分析。
2017年
GTEx v8数据集发布，包含来自838名捐赠者的17,000多个样本，涵盖54个组织，提供了最新的基因表达和调控网络数据。
2020年

常用场景

经典使用场景

在基因表达研究领域，Genotype-Tissue Expression (GTEx) v8 数据集被广泛用于探索基因型与组织特异性表达之间的关系。该数据集收集了来自多个组织的基因表达数据，通过分析这些数据，研究者能够识别出在特定组织中表达差异显著的基因，从而揭示基因在不同生理状态下的功能。

解决学术问题

GTEx v8 数据集解决了基因表达研究中的一个核心问题，即基因型与表型之间的关联。通过大规模的基因表达谱分析，该数据集帮助研究者理解基因如何在不同组织中调控表达，进而影响生物体的生理功能。这一研究不仅深化了对基因调控机制的认识，还为复杂疾病的遗传基础提供了新的视角。

衍生相关工作

基于 GTEx v8 数据集，许多后续研究工作得以展开。例如，研究者利用该数据集开发了多种基因表达预测模型，这些模型在疾病诊断和预后评估中展现出巨大潜力。此外，GTEx v8 数据集还激发了关于基因表达调控网络的研究，推动了系统生物学领域的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录

中国沙漠边界数据集（2000-2020年）

本数据集基于Landsat遥感影像，通过辐射定标和大气校正等预处理算法得到沙漠区域影像，通过人工目视解译及波段指数的方法提提取沙漠边界区域。数据集涉及的沙漠主要包括中国八大沙漠。分别为腾格里沙漠，塔克拉马干沙漠，巴丹吉林沙漠，库布奇沙漠，乌兰布和沙漠，库木塔格沙漠，古尔班通古特沙漠，...

国家冰川冻土沙漠科学数据中心收录