five

NHGRI-EBI GWAS Catalog|基因组研究数据集|疾病关联数据集

收藏
www.ebi.ac.uk2024-10-26 收录
基因组研究
疾病关联
下载链接:
https://www.ebi.ac.uk/gwas/
下载链接
链接失效反馈
资源简介:
NHGRI-EBI GWAS Catalog是一个包含全基因组关联研究(GWAS)结果的数据库,涵盖了与人类疾病和性状相关的遗传变异信息。该数据集包括了研究中使用的样本数量、变异位点、关联的性状或疾病、以及研究发表的详细信息。
提供机构:
www.ebi.ac.uk
AI搜集汇总
数据集介绍
main_image_url
构建方式
NHGRI-EBI GWAS Catalog数据集的构建基于全球范围内大规模的基因关联研究,通过系统性地收集和整合来自不同研究团队的基因组关联分析结果。该数据集涵盖了多种复杂疾病和性状的遗传关联信息,通过严格的质量控制和标准化流程,确保数据的准确性和可靠性。构建过程中,研究者对原始数据进行了详细的注释和分类,包括基因、变异位点、疾病类型及其相关文献等,从而形成了一个全面且易于查询的基因关联数据库。
特点
NHGRI-EBI GWAS Catalog数据集以其全面性和权威性著称,包含了数千个基因关联研究的结果,覆盖了从常见疾病到罕见性状的广泛领域。该数据集不仅提供了详细的基因变异信息,还整合了相关的生物学注释和功能预测,为研究人员提供了深入理解基因与疾病关系的重要资源。此外,数据集的更新频率高,能够及时反映最新的科学发现,确保用户获取的信息始终处于前沿。
使用方法
NHGRI-EBI GWAS Catalog数据集的使用方法多样,适用于不同层次的研究需求。研究人员可以通过在线查询工具,输入特定的基因或疾病名称,快速获取相关的基因关联信息和文献支持。对于高级用户,数据集提供了API接口,支持批量数据下载和自动化分析。此外,该数据集还常用于基因组学研究中的数据挖掘和机器学习模型的训练,帮助识别潜在的疾病风险基因和生物标志物。
背景与挑战
背景概述
NHGRI-EBI GWAS Catalog(全基因组关联研究数据库)是由美国国家人类基因组研究所(NHGRI)和欧洲生物信息学研究所(EBI)共同维护的一个综合性数据库。该数据库自2007年启动以来,已成为全球基因组学研究的重要资源。它汇集了大量关于基因变异与复杂疾病和性状之间关联的研究数据,为科学家提供了丰富的遗传信息,极大地推动了个性化医学和精准医疗的发展。通过整合和标准化这些数据,NHGRI-EBI GWAS Catalog不仅促进了跨学科的合作,还为后续的生物医学研究奠定了坚实的基础。
当前挑战
尽管NHGRI-EBI GWAS Catalog在基因组学领域具有重要地位,但其构建和维护过程中仍面临诸多挑战。首先,数据的标准化和整合是一个复杂的过程,涉及多种数据格式和来源,需要高度的技术协调和数据清洗。其次,随着基因组研究的不断深入,数据库需要不断更新以纳入最新的研究成果,这对数据管理和存储提出了更高的要求。此外,确保数据的质量和准确性也是一个持续的挑战,因为基因组数据的复杂性和多样性可能导致数据解读的偏差。最后,如何有效地将这些复杂的遗传信息转化为临床应用,也是该数据库未来需要解决的重要问题。
发展历史
创建时间与更新
NHGRI-EBI GWAS Catalog数据集创建于2008年,旨在收集和整合全基因组关联研究(GWAS)的结果。该数据集定期更新,最新版本于2023年发布,确保了数据的时效性和准确性。
重要里程碑
NHGRI-EBI GWAS Catalog的创建标志着基因组学研究进入了一个新的阶段,为研究人员提供了一个全面的数据库,用于探索基因与复杂疾病之间的关联。2010年,该数据集首次整合了来自多个研究的数据,显著提升了其覆盖范围和研究价值。2015年,随着技术的进步,数据集开始纳入更多样化的样本和更精细的基因变异信息,进一步推动了基因组学领域的发展。
当前发展情况
当前,NHGRI-EBI GWAS Catalog已成为基因组学研究的核心资源,为全球科学家提供了丰富的基因关联数据。该数据集不仅支持基础研究,还为临床应用和药物开发提供了重要参考。通过持续的更新和扩展,数据集不断纳入最新的研究成果,确保了其在基因组学领域的领先地位。此外,数据集的开放获取政策促进了国际合作,推动了基因组学知识的广泛传播和应用。
发展历程
  • NHGRI-EBI GWAS Catalog首次发表,标志着全基因组关联研究(GWAS)数据集的正式建立。
    2007年
  • 数据集进行了首次重大更新,增加了更多的基因型-表型关联数据,提升了数据集的完整性和实用性。
    2010年
  • NHGRI-EBI GWAS Catalog引入了新的数据整合和可视化工具,增强了用户对复杂基因关联数据的理解和分析能力。
    2014年
  • 数据集开始支持多语言访问,进一步扩大了其国际影响力和用户基础。
    2016年
  • NHGRI-EBI GWAS Catalog实现了与多个国际生物信息数据库的整合,促进了跨数据库的数据共享和协作研究。
    2019年
  • 数据集发布了最新的版本,包含了超过100万条基因关联记录,成为全球最大的GWAS数据资源之一。
    2021年
常用场景
经典使用场景
在遗传学领域,NHGRI-EBI GWAS Catalog数据集被广泛用于大规模基因关联研究。该数据集汇集了全球范围内关于基因变异与复杂性状和疾病关联的研究成果,为科学家提供了一个全面的资源库。通过分析这些数据,研究人员能够识别与特定疾病或性状相关的基因变异,从而深入理解疾病的遗传基础。
解决学术问题
NHGRI-EBI GWAS Catalog数据集解决了遗传学研究中的一个关键问题,即如何在大规模人群中系统地识别与复杂疾病相关的基因变异。通过整合和标准化来自不同研究的数据,该数据集为研究人员提供了一个统一的框架,使得跨研究比较和综合分析成为可能。这不仅加速了新基因变异的发现,还提高了研究结果的可重复性和可靠性。
衍生相关工作
基于NHGRI-EBI GWAS Catalog数据集,许多后续研究得以开展。例如,一些研究团队利用该数据集开发了新的统计方法和计算工具,以提高基因关联分析的准确性和效率。此外,该数据集还促进了跨学科合作,如遗传学与流行病学、生物信息学等领域的结合,推动了更广泛的研究和应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。

国家青藏高原科学数据中心 收录

M4-SAR

M4-SAR是一个多分辨率、多极化、多场景、多源数据集,用于光学与合成孔径雷达(SAR)融合的目标检测。该数据集由南京理工大学PCA实验室、安徽大学ICSP教育部重点实验室和南开大学计算机科学学院共同构建,包含112,184对精确对齐的图像和近一百万个标注实例。数据集覆盖六个关键类别,并使用公开的光学和SAR数据,包括Sentinel-1和Sentinel-2卫星提供的数据。为了克服SAR标注的挑战,该研究提出了一种半监督的光学辅助标注策略,利用光学图像的语义丰富性来显著提高标注质量。M4-SAR数据集旨在解决现有光学和SAR数据集的局限性,为多源融合目标检测任务提供大规模、高质量、标准化的数据集,并推动相关研究的发展。

arXiv 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录