dotan1111/MSA-nuc-7-seq
收藏Hugging Face2023-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dotan1111/MSA-nuc-7-seq
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含通过SpartaABC工具生成的蛋白质和DNA的多序列对齐数据。生成数据时使用了随机生成的系统发育树拓扑结构,并设置了插入率、删除率、插入Zipfian分布参数和删除Zipfian分布参数等。数据集分为训练、验证和测试三部分,分别包含1,495,000、2,000和3,000个蛋白质和DNA的多序列对齐数据。每个随机树的枝长从均匀分布中抽取,序列长度和根长度在数据集内部和之间有所不同。蛋白质数据集使用WAG+G模型生成,DNA数据集使用GTR+G模型生成。
提供机构:
dotan1111
原始信息汇总
多序列比对作为序列到序列学习问题
摘要
BetaAlign 是一种使用自然语言处理方法进行序列比对的方法。通过使用基于不同进化模型的数百万样本训练的变换器集合,BetaAlign 考虑了不同数据集之间进化过程的可能变异性。该方法的比对准确性通常与常用的方法(如 MAFFT、DIALIGN、ClustalW、T-Coffee、PRANK 和 MUSCLE)相当甚至更好。
数据
使用 SpartaABC(Loewenthal et al., 2021)生成了数百万个真实比对。SpartaABC 需要以下输入:
- 一个有根的系统发育树,包括拓扑结构和分支长度;
- 替换模型(氨基酸或核苷酸);
- 根序列长度;
- 插入和删除模型参数,包括插入率(R_I)、删除率(R_D)、插入 Zipfian 分布参数(A_I)和删除 Zipfian 分布参数(A_D)。
生成了 1,495,000、2,000 和 3,000 个蛋白质多序列比对(MSA),分别用于训练、验证和测试数据。同样生成了相同数量的 DNA MSA。对于每个随机树,分支长度从范围 (0.5,1.0) 的均匀分布中抽取。然后使用 SpartaABC 生成序列,参数为 R_I,R_D in (0.0,0.05),A_I, A_D in (1.01,2.0)。比对长度以及树叶的序列长度在数据集内和数据集之间变化,取决于插入和删除动态以及根长度。根长度在范围 [32,44] 内均匀采样。除非另有说明,所有蛋白质数据集均使用 WAG+G 模型生成,所有 DNA 数据集均使用 GTR+G 模型生成,参数如下:
- 不同核苷酸的频率 (0.37, 0.166, 0.307, 0.158),顺序为 "T", "C", "A" 和 "G";
- 替换率 (0.444, 0.0843, 0.116, 0.107, 0.00027),顺序为 "a", "b", "c", "d", 和 "e" 的替换矩阵。
示例
以下示例对应于上图中的 MSA: json {"MSA": "AAAC-GGG", "unaligned_seqs": {"seq0": "AAG", "seq1": "ACGG"}}



