songlab/multiz100way
收藏Hugging Face2025-01-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/songlab/multiz100way
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含100个脊椎动物的经过处理的完整基因组比对信息。数据集以两种格式提供,分别为89.zarr.zip和99.zarr.zip,包含人类基因组序列以及来自89个或99个脊椎动物的序列。源数据来自UCSC基因组浏览器和Ensembl。该数据集用于变异效果预测(VEP)等任务,并与gpn.data模块中的GenomeMSA类兼容。数据可以通过流式传输或本地下载方式访问,后者由于查询速度快且支持多个数据加载器工作,因此对于训练或大规模VEP推荐使用。使用本地下载方法时,数据集需要较多的CPU内存来加载。
This dataset contains processed whole-genome alignments of 100 vertebrate species, including the human genome sequence along with sequences from 89 or 99 other vertebrates in the 89.zarr.zip and 99.zarr.zip formats respectively. The source data is derived from the UCSC Genome Browser and Ensembl. The dataset is used for tasks such as Variant Effect Prediction (VEP) and is compatible with the GenomeMSA class from the gpn.data module. The data can be accessed via streaming or local download, with the latter being recommended for training or large-scale VEP due to faster query times and support for multiple dataloader workers. When using local download, the dataset requires a significant amount of CPU memory to load.
提供机构:
songlab
原始信息汇总
处理过的100种脊椎动物全基因组比对数据集
数据来源
- 多序列比对(MSA)数据下载自:http://hgdownload.soe.ucsc.edu/goldenPath/hg38/multiz100way/
- 人类序列被替换为更新的参考序列:http://ftp.ensembl.org/pub/release-107/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna_sm.primary_assembly.fa.gz
可用MSA数据
89.zarr.zip包含人类和89种脊椎动物(不包括10种最接近的灵长类动物)99.zarr.zip包含人类和99种脊椎动物
坐标系统
- 使用
hg38基因组组装 chrom应为["1", "2", ..., "22", "X", "Y"]
数据使用示例
python from gpn.data import GenomeMSA
genome_msa = GenomeMSA(msa_path) X = genome_msa.get_msa(chrom, start, end, strand="+", tokenize=False)
数据流模式(适用于少量查询)
- 快速设置(无需下载和解压)
- 查询速度较慢(取决于网络连接)
- 不支持多个数据加载器工作线程
- 需要更多CPU内存:10.41 GB
- 推荐用于少量查询,例如VEP查询几千个变体
- 示例路径:
zip:///::https://huggingface.co/datasets/songlab/multiz100way/resolve/main/89.zarr.zip
本地下载模式(适用于训练或大规模VEP)
-
需要下载(34GB)和解压(目前较慢,将尝试改进)
-
示例下载命令: bash wget https://huggingface.co/datasets/songlab/multiz100way/resolve/main/89.zarr.zip 7z x 89.zarr.zip -o89.zarr # 可能需要5小时,使用32个核心,未来将优化此过程
-
更新:更快的解压方法由 lpigou 提供
-
查询速度更快
-
支持多个数据加载器工作线程
-
几乎不需要CPU内存
-
推荐用于训练或VEP查询数百万个变体
-
示例路径:
89.zarr
搜集汇总
数据集介绍

构建方式
在基因组学领域,多物种全基因组比对是揭示进化保守性与功能元件的重要资源。本数据集源自UCSC基因组浏览器的multiz100way多序列比对数据,覆盖了100种脊椎动物的全基因组序列。构建过程中,原始的人类参考序列被更新为Ensembl release-107提供的GRCh38组装版本,确保了数据的时效性与准确性。数据以Zarr格式存储,提供了两种子集:包含人类及89种非近缘灵长类脊椎动物的89.zarr.zip,以及涵盖全部100个物种的99.zarr.zip,便于研究者根据需求选择不同进化距离的比对集合。
特点
该数据集的核心特征在于其广泛的物种覆盖与高质量的多序列比对。它整合了跨越脊椎动物门类的100个物种,为比较基因组学研究提供了宏大的进化视角。数据采用高效的Zarr格式进行压缩与组织,支持快速的随机访问与流式读取,极大地方便了大规模基因组区域的分析。数据集严格遵循hg38坐标系统,染色体标识符涵盖1至22号常染色体及X、Y性染色体,确保了与主流基因组注释资源的兼容性。这种结构既适用于小规模的变异效应预测,也能支撑需要海量数据访问的深度学习模型训练。
使用方法
利用该数据集进行科研分析,用户可根据计算场景灵活选择数据访问模式。对于轻量级的探索或少量变异查询,推荐采用流式访问模式,通过指定远程Zarr压缩包的URL路径,无需本地下载即可直接加载数据,尽管查询速度受网络制约。对于需要高性能访问的训练任务或大规模变异注释,则应将数据集下载至本地并解压。本地化后,通过GenomeMSA工具指定路径、染色体、起止位置及链方向,即可高效提取特定基因组区间的多序列比对矩阵。该方法支持多数据加载器并行工作,能显著提升数据处理吞吐量。
背景与挑战
背景概述
在基因组学领域,多物种全基因组比对是揭示进化保守性与功能元件的重要基石。由加州大学伯克利分校Song Lab团队于2024年构建的multiz100way数据集,整合了100种脊椎动物的全基因组序列,以人类基因组GRCh38/hg38为参考坐标系。该数据集源自UCSC基因组浏览器的multiz100way多序列比对资源,并更新了人类参考序列至Ensembl release-107版本,旨在为大规模基因组学分析提供标准化、高质量的比对数据。其核心研究问题聚焦于通过跨物种序列保守性来识别功能区域、解析基因组进化历程,并为变异效应预测等研究提供关键数据支撑,显著推动了比较基因组学与计算生物学的发展。
当前挑战
该数据集致力于解决基因组学中多序列比对与进化分析的核心挑战,即如何高效处理海量、高维的跨物种基因组数据以准确识别功能保守区域。在构建过程中,面临数据整合与处理的复杂性:原始比对数据来源分散,需统一坐标并更新人类参考序列以确保一致性;数据规模庞大,压缩后的文件仍达34GB,解压过程耗时且计算资源密集,即便使用多核处理器也可能长达数小时。此外,为适应不同应用场景,需平衡流式访问与本地存储的利弊,前者便于快速查询但受网络限制且内存占用高,后者虽加速查询却需预先承担显著的存储与时间成本,这为数据的分发与使用带来了实际障碍。
常用场景
经典使用场景
在基因组学与进化生物学领域,多物种全基因组比对是揭示遗传保守性与功能元件的基础。songlab/multiz100way数据集提供了100种脊椎动物的全基因组多序列比对,其经典使用场景集中于大规模基因组序列的深度分析。研究人员利用该数据集,能够系统探究跨物种的DNA序列保守模式,识别在漫长进化历程中保持稳定的功能区域,如编码序列、调控元件以及非编码RNA等。通过高效的数据访问接口,用户可便捷提取特定染色体区段的比对信息,为后续的进化分析与功能注释奠定数据基石。
实际应用
在实际应用层面,songlab/multiz100way数据集已成为基因组医学与生物信息学工具开发的关键资源。其最直接的应用体现在变异效应预测领域,例如作为VEP等注释流程的输入,帮助临床研究人员评估人类遗传变异的致病潜力。此外,该数据集为构建和训练新一代基因组人工智能模型提供了必需的训练数据,这些模型能够从进化信息中学习序列语法,进而预测增强子、启动子等调控元件的活性,加速从基因组序列到表型功能的解读。
衍生相关工作
围绕该数据集,已衍生出一系列具有影响力的经典研究工作。其核心关联工作包括开发基因组预训练神经网络模型,这些模型利用多物种比对所蕴含的进化信号,学习DNA序列的通用表示。例如,相关研究展示了如何利用此类比对数据训练模型,以显著提升对非编码变异功能影响的预测准确性。这些工作不仅验证了进化保守性作为强大监督信号的潜力,也推动了计算生物学向端到端的深度学习范式转变,为解读基因组‘暗物质’开辟了新途径。
以上内容由遇见数据集搜集并总结生成



