Genotype-Tissue Expression (GTEx)|基因表达数据集|基因型-表型关系数据集

gtexportal.org2024-10-31 收录

基因表达

基因型-表型关系

下载链接：

https://gtexportal.org/home/

下载链接

链接失效反馈

资源简介：

GTEx数据集包含了来自多个组织和器官的基因表达数据，旨在研究基因型与表型之间的关系。数据集包括基因表达谱、基因型信息、组织样本的详细信息等。

提供机构：

gtexportal.org

AI搜集汇总

数据集介绍

构建方式

Genotype-Tissue Expression (GTEx) 数据集的构建基于大规模的基因型和组织表达数据，涵盖了多个组织和器官。该数据集通过收集来自不同个体的组织样本，利用高通量测序技术进行基因型和表达水平的全面分析。数据处理过程中，采用了严格的质控标准，确保数据的准确性和可靠性。此外，GTEx项目还结合了多层次的统计分析方法，以揭示基因型与表达水平之间的复杂关系。

特点

GTEx 数据集的显著特点在于其广泛性和深度。该数据集包含了来自近千名捐赠者的多种组织样本，涵盖了50多个不同的组织类型，提供了丰富的基因型和表达数据。此外，GTEx数据集还具有高度的标准化和可重复性，确保了不同研究之间的数据一致性和可比性。这些特点使得GTEx成为研究基因表达调控和复杂疾病机制的重要资源。

使用方法

GTEx 数据集的使用方法多样，适用于多种生物医学研究。研究人员可以通过访问GTEx官方网站或相关数据库，下载所需的数据集进行分析。常见的使用场景包括基因表达谱分析、基因型与表型关联研究、以及组织特异性基因调控网络的构建。此外，GTEx数据集还支持跨组织和跨个体的比较分析，有助于揭示基因在不同环境和条件下的表达模式和调控机制。

背景与挑战

背景概述

Genotype-Tissue Expression (GTEx) 数据集是由美国国立卫生研究院（NIH）下属的国家人类基因组研究所（NHGRI）主导的一项大型基因表达研究项目。该项目始于2010年，旨在通过分析来自不同组织和器官的基因表达数据，揭示基因型与表型之间的复杂关系。GTEx 数据集包含了来自近1000名捐赠者的超过8000个组织样本，涵盖了54种不同的组织类型。这些数据为研究人员提供了丰富的资源，用以探索基因变异如何影响不同组织中的基因表达，从而为理解疾病机制和开发个性化医疗提供了重要依据。

当前挑战

GTEx 数据集在构建过程中面临了多重挑战。首先，数据的质量控制是一个关键问题，因为基因表达数据的变异性和复杂性要求高精度的实验设计和严格的质量控制流程。其次，数据的整合与标准化也是一个重大挑战，不同组织和样本之间的基因表达水平差异需要通过标准化方法进行统一处理，以确保数据的可靠性和可比性。此外，数据的隐私和伦理问题也是不可忽视的，如何在保护捐赠者隐私的前提下，最大化数据的使用价值，是GTEx项目必须解决的重要问题。

发展历史

创建时间与更新

Genotype-Tissue Expression (GTEx) 数据集创建于2010年，旨在研究基因型与组织表达之间的关系。该数据集自创建以来，经历了多次更新，最近一次重大更新是在2020年，引入了更多样本和更精细的表达数据。

重要里程碑

GTEx 数据集的重要里程碑包括2013年首次发布的数据版本，该版本奠定了基因型与组织表达研究的基础。随后，2015年的更新引入了大规模的基因表达数据，显著提升了研究深度。2020年的更新则进一步扩展了样本数量，涵盖了更多组织类型，为精准医学和基因调控研究提供了宝贵的资源。

当前发展情况

当前，GTEx 数据集已成为基因表达研究领域的核心资源，其数据被广泛应用于基因调控网络分析、疾病关联研究以及药物靶点发现等多个领域。通过不断更新和扩展，GTEx 数据集不仅提升了基因表达数据的准确性和全面性，还促进了跨学科的合作与创新，为未来的个性化医疗和精准治疗奠定了坚实的基础。

发展历程

GTEx项目正式启动，旨在研究基因型与组织表达之间的关系，通过大规模的基因表达数据分析，揭示基因在不同组织中的表达模式。
2013年
首次发表GTEx数据集，提供了来自多个组织的基因表达数据，为研究基因表达调控提供了重要资源。
2015年
GTEx项目发布了第二版数据集，增加了更多的样本和组织类型，进一步丰富了基因表达数据的多样性。
2017年
GTEx项目发布了第三版数据集，引入了新的分析方法和工具，提升了数据的质量和解析能力，推动了基因表达研究的深入发展。
2020年

常用场景

经典使用场景

在基因表达研究领域，Genotype-Tissue Expression (GTEx) 数据集被广泛用于探索基因型与组织特异性表达之间的关系。该数据集通过收集来自不同组织和器官的基因表达数据，为研究人员提供了一个全面的平台，以分析基因变异如何影响特定组织中的基因表达水平。这种分析有助于揭示基因与疾病之间的潜在联系，特别是在复杂疾病的研究中，如癌症和心血管疾病。

解决学术问题

GTEx 数据集解决了基因表达研究中的一个核心问题，即基因型与表型之间的关联。通过提供大规模、多组织的基因表达数据，该数据集使得研究人员能够识别与特定疾病相关的基因变异，并进一步理解这些变异如何通过影响基因表达来导致疾病。此外，GTEx 数据集还促进了跨学科研究，如遗传学、生物信息学和临床医学的结合，推动了个性化医疗的发展。

衍生相关工作

基于 GTEx 数据集，许多后续研究工作得以开展，其中最为著名的是对基因表达调控网络的深入分析。这些研究揭示了基因表达调控的复杂性，并识别出关键的调控因子。此外，GTEx 数据集还促进了多组织基因表达数据库的构建，这些数据库为全球科研人员提供了丰富的资源，用于探索基因表达与疾病之间的关系。这些衍生工作不仅扩展了我们对基因表达调控的理解，还为未来的精准医疗提供了坚实的基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊

reereererreereererreereererreereererreereererreereererreereererreereererreereererreereererreereererreereerer

阿里云天池收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

ZuantuSet

ZuantuSet是一个包含超过71,000个中国历史视觉化和108,000个插图的数据集。该数据集由北京大学的一般人工智能国家重点实验室和智能科学技术学院通过半自动化的管道收集和提取历史书籍中的视觉化内容而构建。数据集涵盖了从公元前550年到1950年的中国历史视觉化作品。该数据集不仅揭示了历史中国视觉化的独特设计模式，还分析了其背后的历史和文化成因，为数字人文领域的研究提供了丰富的资源。

arXiv 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集，专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息，包括720个航班和5770趟列车，以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求，并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题，特别是在多兴趣点行程安排和用户偏好满足方面，为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录