allen_ancient_dna

Hugging Face2025-03-22 更新2025-03-23 收录

下载链接：

https://huggingface.co/datasets/gebregl/allen_ancient_dna

下载链接

链接失效反馈

官方服务：

资源简介：

艾伦古代DNA资源（AADR）是一个经过策划和标准化的古代和现代人类基因型集合，旨在支持人口历史和自然选择的研究。这个版本包括：参考基因组构建为hg19。

创建时间：

2025-03-22

原始信息汇总

数据集概述

数据集名称

Allen Ancient DNA Resource (AADR) in Zarr Format

数据集简介

该数据集是Allen Ancient DNA Resource (AADR)的机器学习友好版本，原始数据格式为ancestrymap，现转换为Zarr格式以便高效访问和处理。AADR是一个经过整理的、标准化的古代和现代人类基因型集合，旨在支持人口历史和自然选择的研究。

数据集内容

参考基因组构建：hg19

Zarr格式结构

提供了两种Zarr文件以支持不同的访问模式：

SNP-chunked：每个块包含1024个SNP，适用于SNP级别的访问（如矩阵分解、GWAS）。
Individual-chunked：每个块包含所有SNP，适用于个体级别的访问（如样本嵌入、分类）。

应用场景

古代DNA的机器学习
人口遗传学和人口统计推断
遗传漂变、选择和混合的建模
基于基因型的神经模型训练

转换脚本

Zarr文件通过自定义脚本生成，脚本包括：

下载AADR的ancestrymap文件
将ancestrymap转换为VCF格式
将VCF转换为ZARR SNP chunked格式
将ZARR文件重新分块为individual chunked格式

使用示例

提供了使用该数据集作为torch数据集的示例，展示了如何结合位置或年龄标签迭代SNP调用。

许可证和致谢

许可证：cc0-1.0
致谢：数据集由John Templeton Foundation、National Institutes of Health、Howard Hughes Medical Institute和Paul G. Allen Frontiers Group资助。

相关链接

搜集汇总

数据集介绍

构建方式

Allen Ancient DNA Resource (AADR) 数据集通过将原始的`ancestrymap`格式转换为Zarr格式，以支持高效的访问和处理。转换过程包括从`ancestrymap`格式下载数据，将其转换为VCF格式，再进一步转换为Zarr格式，并针对不同的访问模式进行了优化。具体而言，数据集提供了两种Zarr文件：SNP-chunked和Individual-chunked，分别针对SNP和个体级别的访问进行了优化。

特点

AADR数据集包含了古代和现代人类基因型的标准化集合，旨在支持人口历史和自然选择的研究。数据集基于hg19参考基因组构建，提供了两种不同的Zarr文件结构，分别优化了SNP和个体级别的访问。SNP-chunked文件以1024个SNP为单位进行分块，适合SNP级别的分析；Individual-chunked文件则以个体为单位进行分块，适合个体级别的分析。这种结构设计使得数据集在机器学习和遗传学研究中具有高度的灵活性和效率。

使用方法

AADR数据集的使用方法多样，适用于机器学习、人口遗传学、遗传漂变和混合建模等领域。用户可以通过提供的转换脚本将数据加载为Zarr格式，并利用示例代码进行SNP调用和标签的迭代分析。数据集还支持作为PyTorch数据集使用，用户可以通过`load_data`函数加载数据并结合位置或年龄标签进行分析。此外，数据集的使用和引用政策可在哈佛Dataverse的AADR页面查阅。

背景与挑战

背景概述

Allen Ancient DNA Resource (AADR) 数据集是一个经过精心整理的古代与现代人类基因型标准化集合，旨在支持人口历史和自然选择的研究。该数据集由哈佛大学等机构的研究人员开发，最早发布于2019年，其核心研究问题聚焦于通过古代DNA分析揭示人类群体的迁徙、混合和适应性进化。AADR数据集在基因组学、考古学和人类学领域具有重要影响力，为研究人员提供了丰富的遗传数据，推动了古代DNA分析技术的进步。该数据集还得到了约翰·坦普尔顿基金会、美国国立卫生研究院等机构的资助，进一步提升了其在学术界的权威性和应用价值。

当前挑战

AADR数据集在解决古代DNA分析领域的挑战时，面临多重复杂问题。首先，古代DNA样本通常存在高度降解和污染，导致数据质量较低，增加了分析的难度。其次，古代与现代基因组的比对和注释需要高度精确的算法支持，以确保结果的可靠性。在数据集构建过程中，研究人员还需克服数据格式转换的挑战，例如将原始`ancestrymap`格式转换为更适合机器学习的Zarr格式，以优化数据访问和处理效率。此外，如何在大规模基因组数据中有效提取有用信息，并应用于机器学习模型训练，也是该数据集面临的重要技术挑战。

常用场景

经典使用场景

在基因组学和古代DNA研究领域，Allen Ancient DNA Resource (AADR) 数据集被广泛应用于探索人类种群历史和自然选择的研究。该数据集通过提供古代和现代人类基因型的标准化集合，支持研究人员进行基因漂变、选择和混合的建模分析。其Zarr格式的优化设计使得数据访问更加高效，特别适用于机器学习模型的训练和基因组关联研究（GWAS）。

解决学术问题

AADR数据集解决了古代DNA研究中数据标准化和高效访问的难题。通过将原始数据转换为Zarr格式，研究人员能够更便捷地进行SNP级别的访问和个体级别的分析。这一改进显著提升了基因组关联研究、种群遗传学推断以及基因漂变和选择模型的构建效率，为理解人类进化历史提供了强有力的数据支持。

衍生相关工作

AADR数据集的推出催生了一系列相关研究，特别是在古代DNA分析和种群遗传学领域。基于该数据集，研究人员开发了多种机器学习模型，用于预测古代个体的地理来源和年代。此外，该数据集还被用于探索人类基因组中的自然选择信号，推动了基因组关联研究和古代人类迁移模式的重建工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集