dotan1111/MSA-nuc-7-seq

Name: dotan1111/MSA-nuc-7-seq
Creator: dotan1111
Published: 2023-09-18 11:50:02
License: 暂无描述

Hugging Face2023-09-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dotan1111/MSA-nuc-7-seq

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含通过SpartaABC工具生成的蛋白质和DNA的多序列对齐数据。生成数据时使用了随机生成的系统发育树拓扑结构，并设置了插入率、删除率、插入Zipfian分布参数和删除Zipfian分布参数等。数据集分为训练、验证和测试三部分，分别包含1,495,000、2,000和3,000个蛋白质和DNA的多序列对齐数据。每个随机树的枝长从均匀分布中抽取，序列长度和根长度在数据集内部和之间有所不同。蛋白质数据集使用WAG+G模型生成，DNA数据集使用GTR+G模型生成。

提供机构：

dotan1111

原始信息汇总

多序列比对作为序列到序列学习问题

摘要

BetaAlign 是一种使用自然语言处理方法进行序列比对的方法。通过使用基于不同进化模型的数百万样本训练的变换器集合，BetaAlign 考虑了不同数据集之间进化过程的可能变异性。该方法的比对准确性通常与常用的方法（如 MAFFT、DIALIGN、ClustalW、T-Coffee、PRANK 和 MUSCLE）相当甚至更好。

数据

使用 SpartaABC（Loewenthal et al., 2021）生成了数百万个真实比对。SpartaABC 需要以下输入：

一个有根的系统发育树，包括拓扑结构和分支长度；
替换模型（氨基酸或核苷酸）；
根序列长度；
插入和删除模型参数，包括插入率（R_I）、删除率（R_D）、插入 Zipfian 分布参数（A_I）和删除 Zipfian 分布参数（A_D）。

生成了 1,495,000、2,000 和 3,000 个蛋白质多序列比对（MSA），分别用于训练、验证和测试数据。同样生成了相同数量的 DNA MSA。对于每个随机树，分支长度从范围 (0.5,1.0) 的均匀分布中抽取。然后使用 SpartaABC 生成序列，参数为 R_I,R_D in (0.0,0.05)，A_I, A_D in (1.01,2.0)。比对长度以及树叶的序列长度在数据集内和数据集之间变化，取决于插入和删除动态以及根长度。根长度在范围 [32,44] 内均匀采样。除非另有说明，所有蛋白质数据集均使用 WAG+G 模型生成，所有 DNA 数据集均使用 GTR+G 模型生成，参数如下：

不同核苷酸的频率 (0.37, 0.166, 0.307, 0.158)，顺序为 "T", "C", "A" 和 "G"；
替换率 (0.444, 0.0843, 0.116, 0.107, 0.00027)，顺序为 "a", "b", "c", "d", 和 "e" 的替换矩阵。

示例

以下示例对应于上图中的 MSA： json {"MSA": "AAAC-GGG", "unaligned_seqs": {"seq0": "AAG", "seq1": "ACGG"}}

5,000+

优质数据集

54 个

任务类型

进入经典数据集