five

All of Us研究项目数据集

收藏
arXiv2024-12-23 更新2024-12-25 收录
下载链接:
http://arxiv.org/abs/2412.17559v1
下载链接
链接失效反馈
官方服务:
资源简介:
本研究使用的数据集来自All of Us研究项目,包含560个个体的基因型数据,用于肾结石易感性的预测模型训练和评估。数据集被分为500个样本用于训练和验证,60个样本用于测试。该数据集通过整合基因型过滤和表型注释,为卷积神经网络(CNN)模型提供了高质量的输入数据。该数据集的应用领域主要集中在个性化基因风险评估,旨在通过深度学习技术提高肾结石风险的预测精度,从而为预防和治疗策略提供支持。

The dataset utilized in this study is derived from the All of Us Research Program, which contains genomic data from 560 individuals and is dedicated to training and evaluating predictive models for kidney stone susceptibility. Specifically, the dataset is partitioned into 500 samples for training and validation, and the remaining 60 samples for testing. Having undergone integrated genomic filtering and phenotype annotation, this dataset delivers high-quality input data for Convolutional Neural Network (CNN) models. Its application domains primarily center on personalized genetic risk assessment, with the goal of enhancing the prediction accuracy of kidney stone risk through deep learning techniques, thus providing support for preventive and therapeutic strategies.
提供机构:
阿姆尔·萨勒姆, 阿尼尔班·蒙达尔
创建时间:
2024-12-23
搜集汇总
数据集介绍
main_image_url
构建方式
All of Us研究项目数据集的构建基于基因组关联研究(GWAS)的总结统计数据,结合了来自Hao等人(2023)的研究,揭示了与肾结石相关的新基因位点。通过连锁不平衡(LD)修剪,去除了冗余的单核苷酸多态性(SNPs),以提高计算效率。数据集包含560名个体的基因型数据,其中500个样本用于训练和验证,60个样本用于测试。这一数据集为卷积神经网络(CNN)模型的训练和评估提供了基础,旨在通过深度学习技术提升多基因风险评分(PRS)模型的预测准确性。
使用方法
该数据集的使用方法主要包括数据预处理、模型训练和评估。首先,通过LD修剪和基因型过滤,准备好输入数据。随后,使用卷积神经网络(CNN)对SNPs数据进行建模,提取非线性特征。模型训练过程中,采用了Adam优化器和dropout正则化,以防止过拟合。最后,通过5折交叉验证和ROC曲线分析,评估模型的性能。该数据集还可用于与其他机器学习模型进行对比,进一步验证深度学习在肾结石风险预测中的优势。
背景与挑战
背景概述
All of Us研究项目数据集是由Amr Salem和Anirban Mondal在2024年创建的,旨在通过深度学习技术,特别是卷积神经网络(CNN),来提高肾结石形成的遗传风险预测。该数据集整合了来自全基因组关联研究(GWAS)的基因型数据和来自All of Us研究项目的560名个体的数据,以探索遗传变异与肾结石风险之间的关系。该研究不仅评估了模型的准确性,还深入探讨了肾结石形成的潜在遗传机制,为个性化风险评估和预防策略提供了新的视角。
当前挑战
该数据集面临的挑战主要包括:1) 数据集的规模较小,仅包含560名个体的数据,可能导致模型性能的方差较大和过拟合问题;2) 数据集中可能存在的不平衡和噪声问题,影响机器学习模型的性能;3) 处理大规模基因组数据的计算效率问题;4) 模型在不同种族间的可转移性问题,由于数据集主要来自单一群体,其结果的普遍性受到限制。此外,如何有效整合基因型、表型和环境因素以提高模型的预测能力也是一个重要挑战。
常用场景
经典使用场景
All of Us研究项目数据集在基因组医学领域中被广泛应用于疾病风险的预测研究。该数据集通过整合大规模的基因组数据,为研究人员提供了丰富的遗传变异信息,特别适用于构建和优化多基因风险评分(PRS)模型。在肾结石风险预测的研究中,该数据集被用于训练卷积神经网络(CNN),以捕捉复杂的非线性遗传关系,从而提升疾病预测的准确性。
解决学术问题
该数据集解决了基因组数据中常见的噪声和不平衡问题,为深度学习模型提供了高质量的训练数据。通过结合全基因组关联研究(GWAS)的总结统计数据和患者基因型数据,研究人员能够更准确地识别与肾结石相关的遗传变异,并构建更精确的PRS模型。这一研究不仅推动了肾结石风险预测的个性化发展,还为其他复杂疾病的遗传研究提供了新的方法论支持。
实际应用
在实际应用中,All of Us研究项目数据集为临床医生提供了基于遗传信息的个性化风险评估工具。通过整合患者的基因型数据和深度学习模型,医生可以更早地识别高风险个体,并制定针对性的预防和治疗策略。这不仅有助于降低肾结石的发病率,还为其他遗传性疾病的早期干预提供了参考。此外,该数据集的应用还推动了基因组医学在临床实践中的普及,为精准医疗的发展奠定了基础。
数据集最近研究
最新研究方向
在基因组医学领域,All of Us研究项目数据集为肾结石风险预测提供了新的研究方向。近年来,深度学习技术,特别是卷积神经网络(CNN),在基因组数据分析中展现出显著优势,能够捕捉复杂的非线性关系,从而提升多基因风险评分(PRS)模型的预测精度。研究表明,通过整合全基因组关联研究(GWAS)数据,CNN模型在肾结石风险预测中表现优于传统机器学习方法,验证了深度学习在基因组医学中的潜力。然而,数据集的样本量限制和跨种族适用性问题仍是当前研究的挑战。未来的研究方向包括扩大数据集规模、整合临床和环境因素,以及探索更复杂的深度学习架构,以进一步提升模型的泛化能力和临床应用价值。
相关研究论文
  • 1
    A CNN Approach to Polygenic Risk Prediction of Kidney Stone Formation阿姆尔·萨勒姆, 阿尼尔班·蒙达尔 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作