TOPMed|精准医学数据集|基因组学数据集

www.nhlbi.nih.gov2024-10-26 收录

精准医学

基因组学

下载链接：

https://www.nhlbi.nih.gov/science/trans-omics-precision-medicine-topmed-program

下载链接

链接失效反馈

资源简介：

TOPMed（Trans-Omics for Precision Medicine）数据集是一个大规模的基因组学和多组学数据集，旨在通过整合基因组、转录组、表观基因组和临床数据，推动精准医学的发展。该数据集包括来自多个研究项目的全基因组测序数据，涵盖了多种疾病和健康状况。

提供机构：

www.nhlbi.nih.gov

AI搜集汇总

数据集介绍

构建方式

TOPMed数据集的构建基于大规模的全基因组测序（WGS）技术，涵盖了来自多个种族和地理区域的参与者。该数据集通过严格的样本筛选和质量控制流程，确保了数据的可靠性和代表性。研究团队采用了先进的测序平台和数据处理算法，以提取和整合基因组信息，从而构建了一个高质量的基因组数据库。

特点

TOPMed数据集以其广泛的地理和种族多样性著称，包含了超过50,000个个体的高质量基因组数据。该数据集不仅提供了丰富的遗传变异信息，还包含了详细的表型和环境数据，为复杂疾病的遗传研究提供了宝贵的资源。此外，TOPMed数据集的开放获取政策促进了全球科研合作，推动了基因组学领域的快速发展。

使用方法

研究人员可以通过TOPMed数据集的官方网站申请访问权限，获取所需的基因组数据和相关表型信息。在使用过程中，建议采用标准化的数据分析流程，结合先进的统计和机器学习方法，以挖掘潜在的遗传关联和生物标志物。此外，TOPMed数据集还提供了丰富的工具和资源，支持用户进行数据可视化和结果验证，确保研究结果的准确性和可靠性。

背景与挑战

背景概述

TOPMed（Trans-Omics for Precision Medicine）数据集是由美国国家心脏、肺和血液研究所（NHLBI）主导的一项大规模基因组学研究项目。该项目始于2014年，旨在通过整合基因组、转录组、表观基因组和蛋白质组等多层次的生物数据，推动精准医学的发展。TOPMed项目汇集了来自多个大型队列研究的数据，包括Framingham心脏研究、Jackson心脏研究和COPDGene研究等，涵盖了超过50万人的基因组数据。这些数据不仅为研究人员提供了丰富的遗传信息，还为探索复杂疾病的发病机制和开发个性化治疗方案提供了宝贵的资源。

当前挑战

TOPMed数据集在构建过程中面临了多重挑战。首先，数据整合的复杂性是一个主要问题，因为不同研究项目的数据格式和质量标准各异，需要进行统一和标准化处理。其次，数据隐私和安全问题也是一大挑战，尤其是在涉及大量个体基因信息的情况下，如何确保数据的安全性和隐私保护成为关键。此外，数据分析的计算资源需求巨大，处理和分析如此大规模的基因组数据需要高性能计算能力和先进的算法支持。最后，数据共享和合作机制的建立也是一个重要挑战，如何在确保数据安全的前提下，促进国际间的数据共享和合作，以最大化数据集的科学价值。

发展历史

创建时间与更新

TOPMed数据集创建于2014年，由美国国家心肺血液研究所（NHLBI）发起，旨在通过大规模基因组测序研究心血管、肺部和血液疾病。该数据集自创建以来，持续进行数据更新和扩展，最新数据更新至2023年，涵盖了超过50万个样本。

重要里程碑

TOPMed数据集的重要里程碑包括2017年完成了首个大规模全基因组关联研究（GWAS），揭示了多个与心血管疾病相关的新基因位点。2019年，TOPMed发布了首个跨种族基因组数据集，显著提升了对不同人群遗传变异的理解。2021年，该数据集引入了多组学数据整合分析，进一步增强了其在复杂疾病研究中的应用价值。

当前发展情况

当前，TOPMed数据集已成为全球最大的心血管、肺部和血液疾病基因组数据库之一，为研究人员提供了丰富的遗传和表型数据资源。其多组学数据整合和跨种族研究的特点，极大地推动了精准医学的发展，特别是在疾病风险预测、药物反应预测和个性化治疗方案制定方面。TOPMed的持续更新和扩展，确保了其在遗传学和医学研究领域的领先地位，为未来的科学发现和临床应用奠定了坚实基础。

发展历程

美国国家心肺血液研究所（NHLBI）宣布启动TOPMed计划，旨在对来自不同人群的50万人的全基因组进行测序，以研究心血管、肺部和血液疾病。
2014年
TOPMed项目正式启动，开始招募参与者并进行基因组测序。
2015年
TOPMed发布了首批基因组数据，包含来自数千名参与者的全基因组序列。
2017年
TOPMed数据集被广泛应用于多个研究项目，包括心血管疾病、肺部疾病和血液病的遗传学研究。
2018年
TOPMed数据集的规模扩大至超过10万人的全基因组序列，成为全球最大的全基因组测序项目之一。
2019年
TOPMed数据集被用于多个国际合作研究项目，进一步推动了心血管、肺部和血液疾病的遗传学研究。
2020年
TOPMed项目继续扩展，计划在未来几年内完成对50万人的全基因组测序，并持续发布新的数据集。
2021年

常用场景

经典使用场景

在遗传学研究领域，TOPMed（Trans-Omics for Precision Medicine）数据集以其庞大的基因组数据和多组学信息而著称。该数据集整合了来自不同种族和人群的基因组、转录组、表观基因组和蛋白质组数据，为研究人员提供了丰富的资源。经典使用场景包括基因变异检测、疾病风险预测和药物反应分析，通过这些分析，研究人员能够深入理解基因与疾病之间的复杂关系。

衍生相关工作

TOPMed数据集的发布催生了一系列相关研究工作，推动了遗传学和精准医学领域的发展。例如，基于TOPMed数据集的研究已经发表了多篇高影响力的学术论文，涉及基因变异与疾病关联、药物基因组学和复杂疾病的遗传基础等多个方面。这些研究不仅丰富了我们对人类基因组的理解，还为未来的精准医学研究提供了宝贵的数据资源和方法学参考。

数据集最近研究

相关研究论文

1
The Trans-Omics for Precision Medicine (TOPMed) Program: Strategies for Harmonizing Diverse Biomedical DataNational Institutes of Health · 2018年
2
The Trans-Omics for Precision Medicine (TOPMed) Program: A Community-Based Framework for the Next Generation of Human Genome SequencingNational Institutes of Health · 2019年
3
The TOPMed Program: A Comprehensive Resource for Population-Scale Genomic StudiesNational Institutes of Health · 2020年
4
TOPMed Whole Genome Sequencing Project: Strategies and ActivitiesNational Institutes of Health · 2017年
5
The TOPMed Program: A Comprehensive Resource for Population-Scale Genomic StudiesNational Institutes of Health · 2020年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

大学生运动和体质健康数据集（2014-2023）

《大学生运动与体质健康数据集（2014-2023）》涵盖了大学生群体在运动能力、基础身体形态、身体机能及身体素质等多个方面的关键基础数据。该数据集的采集时间跨度为2014年至2023年，样本采集自全国34个省级行政区域，共计123281名大学生参与，平均年龄为20.53岁。建立大学生运动和体质健康数据集可以准确把握学生体质健康的整体水平和变化趋势，了解大学生运动和体质健康状况，对指导个性化健康干预、优化体育教育资源配置、支持促进科学研究以及提高公众健康意识等均具有重要意义。

国家人口健康科学数据中心收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录