dotan1111/MSA-nuc-6-seq

Name: dotan1111/MSA-nuc-6-seq
Creator: dotan1111
Published: 2023-09-18 11:49:55
License: 暂无描述

Hugging Face2023-09-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dotan1111/MSA-nuc-6-seq

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含蛋白质和DNA的多序列对齐（MSA）数据，分别用于训练、验证和测试。数据生成过程中使用了SpartaABC工具，基于随机生成的系统发育树和特定的参数设置。具体来说，生成了1,495,000个训练数据、2,000个验证数据和3,000个测试数据的蛋白质MSA，以及相同数量的DNA MSA。每个随机树的分支长度从均匀分布中抽取，序列生成过程中使用了特定的插入和删除率参数。

This dataset contains multiple sequence alignment (MSA) data for proteins and DNA, which are respectively used for training, validation, and testing. The data was generated using the SpartaABC tool, based on randomly generated phylogenetic trees and specific parameter settings. Specifically, 1,495,000 training samples, 2,000 validation samples, and 3,000 test samples of protein MSA were generated, along with DNA MSA samples of the identical split sizes: 1,495,000 for training, 2,000 for validation, and 3,000 for testing. The branch lengths of each random phylogenetic tree were sampled from a uniform distribution, and specific insertion and deletion rate parameters were utilized during the sequence generation process.

提供机构：

dotan1111

原始信息汇总

多序列比对作为序列到序列学习问题

数据

数据生成工具：使用SpartaABC（Loewenthal et al., 2021）生成数百万个真实比对。
输入要求：
1. 有根的系统发育树，包括拓扑结构和分支长度。
2. 替换模型（氨基酸或核苷酸）。
3. 根序列长度。
4. 插入和删除模型参数，包括插入率（R_I）、删除率（R_D）、插入Zipfian分布参数（A_I）和删除Zipfian分布参数（A_D）。
系统发育树生成：使用ETE版本3.0（Huerta-Cepas et al., 2016）生成随机系统发育树拓扑结构，使用默认参数。
数据集规模：
- 蛋白质多序列比对（MSA）：1,495,000个用于训练，2,000个用于验证，3,000个用于测试。
- DNA多序列比对（MSA）：数量与蛋白质MSA相同。
分支长度：从均匀分布*(0.5,1.0)*中抽取。
序列生成参数：
- 插入率（R_I）和删除率（R_D）在*(0.0,0.05)*范围内。
- 插入Zipfian分布参数（A_I）和删除Zipfian分布参数（A_D）在*(1.01,2.0)*范围内。
- 根长度在*[32,44]*范围内均匀抽取。
模型参数：
- 蛋白质数据集使用WAG+G模型。
- DNA数据集使用GTR+G模型，核苷酸频率为*(0.37, 0.166, 0.307, 0.158)，替换率为(0.444, 0.0843, 0.116, 0.107, 0.00027)*。

示例

以下示例对应于上图中的MSA：

json {"MSA": "AAAC-GGG", "unaligned_seqs": {"seq0": "AAG", "seq1": "ACGG"}}

搜集汇总

数据集介绍

构建方式

在生物信息学领域，多序列比对是解析序列进化关系的基础任务。本数据集通过SpartaABC工具模拟生成，结合随机生成的系统发育树拓扑结构，并采用WAG+G和GTR+G等替代模型，以模拟核苷酸或氨基酸序列的进化过程。具体构建过程中，系统发育树的分支长度从均匀分布中采样，插入与缺失率参数在特定范围内随机选取，同时根序列长度亦在一定区间内均匀抽样，从而生成了包含数百万条比对样本的训练、验证与测试数据，确保了数据在进化动力学上的多样性与真实性。

特点

该数据集的核心特点在于其规模庞大且模拟过程高度可控，涵盖了核苷酸与蛋白质序列的多种进化场景。通过引入不同的替代模型与参数分布，数据集能够反映序列在进化过程中可能出现的变异性，包括插入、缺失以及位点替换等事件。此外，数据集中每个比对样本均包含未比对的原始序列及其对应的真实比对结果，为序列到序列学习任务提供了直接可用的输入输出对，从而支持基于Transformer等先进模型的训练与评估。

使用方法

本数据集适用于序列到序列学习框架下的多序列比对研究，用户可直接加载数据集中的训练、验证与测试部分，用于训练基于Transformer的比对模型。具体使用时，原始未比对序列作为输入，对应的真实比对结果作为目标输出，通过编码器-解码器结构进行端到端学习。研究人员可在此基础上调整模型架构或超参数，以优化比对准确性，并与传统方法如MAFFT、MUSCLE等进行性能对比，推动生物信息学中自动化比对技术的发展。

背景与挑战

背景概述

多序列比对作为生物信息学领域的核心问题，其目标在于揭示生物序列间的进化关系与功能保守性。dotan1111/MSA-nuc-6-seq数据集由以色列特拉维夫大学等机构的研究团队于2023年构建，旨在将序列比对问题转化为序列到序列的学习任务。该数据集依托SpartaABC模拟工具，基于随机生成的系统发育树与多样化进化模型，生成了数百万条核苷酸序列的比对数据，为开发基于Transformer的BetaAlign方法提供了大规模训练基础。这一创新尝试将自然语言处理技术引入传统生物信息学分析，显著提升了比对的准确性与适应性，为进化生物学与基因组学研究提供了新的计算范式。

当前挑战

在领域层面，多序列比对长期面临高维序列空间中的计算复杂性挑战，尤其是在处理长度变异大、进化速率异质的序列时，传统动态规划与启发式方法常陷入局部最优或效率瓶颈。构建过程中，该数据集需模拟真实进化过程，其难点在于平衡进化模型的多样性：需精确配置插入缺失率、分支长度与替代模型参数，以覆盖自然序列的广泛变异范围；同时，生成数据的规模与质量需确保机器学习模型能够有效捕捉序列间的深层依赖关系，避免过拟合或泛化能力不足。

常用场景

经典使用场景

在生物信息学领域，多序列比对是解析生物序列进化关系与功能结构的基础任务。dotan1111/MSA-nuc-6-seq数据集通过模拟大规模核苷酸序列比对数据，为序列到序列学习模型提供了训练与验证资源。该数据集常用于训练基于Transformer架构的深度学习模型，如BetaAlign方法，以自动化生成高精度比对结果，替代传统启发式算法，显著提升比对效率与准确性。

实际应用

在实际应用中，该数据集支撑的序列到序列学习模型已用于基因组学与蛋白质组学的高通量分析。例如，在病原体进化追踪或保守功能域识别中，模型能够快速对齐大规模病毒或细菌序列，辅助研究人员揭示突变热点与进化路径。此外，在药物靶点发现领域，精准的序列比对有助于预测蛋白质结构与功能，加速生物标记物的筛选与验证过程。

衍生相关工作

基于该数据集衍生的经典工作包括BetaAlign方法论，其将多序列比对重构为自然语言处理任务，开创了深度学习在比对问题中的新范式。相关研究进一步拓展了集成学习在生物序列分析中的应用，例如结合不同进化模型训练多Transformer架构，以提升模型泛化能力。这些工作促进了生物信息学与人工智能的交叉融合，为后续开发更高效、自适应的比对工具奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集