five

gnomAD|基因组研究数据集|遗传变异数据集

收藏
gnomad.broadinstitute.org2024-10-27 收录
基因组研究
遗传变异
下载链接:
https://gnomad.broadinstitute.org/
下载链接
链接失效反馈
资源简介:
gnomAD(Genome Aggregation Database)是一个大规模的基因组变异数据库,包含了来自全球多个群体的基因组数据。该数据集主要用于研究人类基因组的变异情况,包括单核苷酸变异(SNVs)、插入缺失(indels)和小片段的拷贝数变异(CNVs)。gnomAD数据集的目的是提供一个公共资源,供研究人员分析和理解人类遗传变异。
提供机构:
gnomad.broadinstitute.org
AI搜集汇总
数据集介绍
main_image_url
构建方式
gnomAD数据集的构建基于大规模的基因组测序项目,汇集了来自全球多个研究机构和公共数据库的基因组数据。通过严格的质量控制和数据清洗流程,确保了数据的准确性和一致性。该数据集涵盖了多种族群的基因组信息,包括但不限于欧洲、非洲、亚洲和美洲的样本,从而提供了广泛的遗传多样性。
特点
gnomAD数据集以其高度的多样性和广泛的地理覆盖而著称,为研究人员提供了丰富的遗传变异信息。该数据集不仅包含了单核苷酸变异(SNVs),还涵盖了插入缺失、结构变异等多种类型的遗传变异。此外,gnomAD还提供了详细的注释信息,如变异的频率、功能预测和临床相关性,极大地增强了其研究价值。
使用方法
gnomAD数据集可广泛应用于遗传学、基因组学和临床研究领域。研究人员可以通过访问gnomAD的在线平台或下载完整数据集,进行变异频率分析、群体遗传学研究以及疾病相关基因的鉴定。此外,gnomAD还支持与其他数据库的整合分析,如ClinVar和dbSNP,从而为复杂疾病的遗传机制研究提供了强有力的工具。
背景与挑战
背景概述
gnomAD(Genome Aggregation Database)是由多个研究机构合作创建的大规模基因组变异数据集,旨在为人类基因组中的变异提供全面且高质量的资源。该数据集汇集了来自全球多个群体的基因组数据,涵盖了超过14万个个体,提供了丰富的遗传变异信息。gnomAD的创建始于2016年,由Broad Institute、University of Washington等机构主导,其核心研究问题在于识别和注释人类基因组中的罕见和常见变异,以支持遗传疾病的研究和诊断。gnomAD的发布极大地推动了基因组学领域的发展,为研究人员提供了宝贵的资源,促进了遗传变异与疾病关联的研究。
当前挑战
gnomAD数据集在构建和应用过程中面临多项挑战。首先,数据集的构建需要处理来自不同群体和研究项目的大量基因组数据,确保数据的质量和一致性是一个复杂的过程。其次,由于基因组数据的隐私和伦理问题,gnomAD在数据共享和使用方面需严格遵守相关法规,确保个体隐私的保护。此外,gnomAD所解决的领域问题,如罕见变异的识别和功能注释,需要高度专业化的生物信息学工具和方法,以准确解析这些变异对基因功能和疾病风险的影响。这些挑战要求研究团队不断优化数据处理流程和分析方法,以提升数据集的实用性和科学价值。
发展历史
创建时间与更新
gnomAD数据集于2016年首次发布,旨在提供一个全面的基因组变异数据库。自发布以来,gnomAD经历了多次重大更新,最近一次主要更新是在2020年,引入了更多的基因组数据和改进的分析方法。
重要里程碑
gnomAD的重要里程碑包括2017年的v2版本,该版本整合了ExAC和gnomAD的数据,提供了更广泛的基因组覆盖。2018年,gnomAD发布了v2.1版本,增加了对罕见变异的详细分析。2020年的v3版本则标志着从外显子组数据向全基因组数据的重大转变,极大地扩展了数据集的规模和深度。
当前发展情况
当前,gnomAD已成为全球基因组学研究的重要资源,为科学家提供了丰富的遗传变异数据,支持了多项疾病关联研究和药物开发。其不断更新的数据和分析工具,使得gnomAD在基因组学领域的影响力持续增强,为精准医学的发展提供了坚实的基础。
发展历程
  • gnomAD数据集首次发布,整合了ExAC、Genome Aggregation Database (GAD) 和千人基因组计划的数据,旨在提供一个全面的基因变异数据库。
    2016年
  • gnomAD发布了其第二版数据集,增加了来自更多人群的基因组数据,并改进了数据质量和注释。
    2017年
  • gnomAD发布了第三版数据集,引入了更多的基因组数据,包括来自不同种族和民族的样本,进一步提升了数据集的多样性和覆盖范围。
    2019年
  • gnomAD开始提供对非编码区域变异的详细注释,扩展了其应用范围,特别是在理解基因调控和疾病关联方面。
    2020年
  • gnomAD发布了其第四版数据集,进一步优化了数据处理流程,增加了对罕见变异的检测和注释,提升了数据集的科学价值和应用潜力。
    2021年
常用场景
经典使用场景
在基因组学领域,gnomAD(Genome Aggregation Database)数据集被广泛用于研究人类基因组的变异情况。该数据集整合了来自多个大型基因组项目的变异数据,提供了丰富的遗传变异信息。研究者利用gnomAD数据集进行基因变异的频率分析,识别罕见和常见的遗传变异,以及评估这些变异在不同人群中的分布情况。
衍生相关工作
gnomAD数据集的发布催生了大量相关研究工作。例如,基于gnomAD数据的变异频率分析,研究者开发了新的算法和工具,用于预测基因变异的功能影响。此外,gnomAD数据还被用于构建人群特异性的基因组参考模型,以提高基因组分析的准确性。这些衍生工作不仅扩展了gnomAD的应用范围,还推动了基因组学领域的技术进步。
数据集最近研究
最新研究方向
在基因组学领域,gnomAD(Genome Aggregation Database)数据集的最新研究方向主要集中在利用其庞大的基因变异数据进行精准医学和疾病风险预测。研究者们通过整合gnomAD中的多维度数据,探索罕见和常见变异对人类健康的影响,特别是在复杂疾病如癌症和神经退行性疾病中的作用。此外,gnomAD数据集还被用于开发和验证新的基因组分析工具,以提高变异解读的准确性和效率。这些研究不仅推动了基因组学的基础科学进展,也为个性化医疗提供了重要的数据支持。
相关研究论文
  • 1
    The Genome Aggregation Database (gnomAD)Broad Institute of MIT and Harvard · 2018年
  • 2
    gnomAD v3: A New Resource for Genome-Wide Variant CallsBroad Institute of MIT and Harvard · 2020年
  • 3
    gnomAD and the Future of Genetic DatabasesUniversity of California, San Francisco · 2021年
  • 4
    Using gnomAD to Identify Rare Genetic Variants in Population StudiesUniversity of Washington · 2019年
  • 5
    gnomAD: Harnessing the Power of Exome and Genome Sequencing Data for Precision MedicineBroad Institute of MIT and Harvard · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录