dotan1111/MSA-amino-3-seq

Name: dotan1111/MSA-amino-3-seq
Creator: dotan1111
Published: 2023-09-18 11:46:25
License: 暂无描述

Hugging Face2023-09-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dotan1111/MSA-amino-3-seq

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于训练、验证和测试的蛋白质和DNA多序列对齐（MSA）数据。数据生成使用了SpartaABC工具，基于随机生成的系统发育树和不同的进化模型参数。具体来说，生成了1,495,000个训练数据、2,000个验证数据和3,000个测试数据的蛋白质MSA，以及相同数量的DNA MSA。每个随机树的枝长从均匀分布中抽取，序列生成过程中使用了特定的插入和删除率参数。蛋白质数据集使用WAG+G模型生成，DNA数据集使用GTR+G模型生成。

提供机构：

dotan1111

原始信息汇总

多序列比对作为序列到序列学习问题

摘要

序列比对问题是生物信息学中最基本的问题之一，已有多种方法被设计来解决它。这里我们介绍BetaAlign，一种使用自然语言处理方法进行序列比对的方法。BetaAlign通过使用一组变换器，每个变换器在不同的进化模型生成的数百万个样本上进行训练，考虑了不同数据集之间进化过程的可能变异性。我们的方法导致比对精度与常用的方法（如MAFFT、DIALIGN、ClustalW、T-Coffee、PRANK和MUSCLE）相似甚至更好。

数据

我们使用SpartaABC（Loewenthal et al., 2021）生成了数百万个真实比对。SpartaABC需要以下输入：（1）一个有根的系统发育树，包括拓扑结构和分支长度；（2）替换模型（氨基酸或核苷酸）；（3）根序列长度；（4）插入和删除模型参数，包括插入率（R_I）、删除率（R_D）、插入Zipfian分布参数（A_I）和删除Zipfian分布参数（A_D）。使用ETE版本3.0（Huerta-Cepas et al., 2016）生成随机系统发育树拓扑结构，并使用默认参数进行模拟。

我们生成了1,495,000个蛋白质多序列比对（MSA），其中10个序列用于训练验证和测试数据，分别。我们还生成了相同数量的DNA MSA。对于每个随机树，分支长度从范围*(0.5,1.0)的均匀分布中抽取。接下来，使用SpartaABC生成序列，参数为R_I,R_D in (0.0,0.05)，A_I, A_D in (1.01,2.0)。比对长度以及树叶的序列长度在数据集之间和内部变化，因为它们取决于插入和删除动态以及根长度。根长度在范围[32,44]内均匀采样。除非另有说明，所有蛋白质数据集均使用WAG+G模型生成，所有DNA数据集均使用GTR+G模型生成，参数如下：（1）不同核苷酸的频率(0.37, 0.166, 0.307, 0.158)，顺序为"T", "C", "A"和"G"；（2）替换率(0.444, 0.0843, 0.116, 0.107, 0.00027)*，顺序为"a", "b", "c", "d", "e"。

示例

以下示例对应于上图中的MSA：

json {"MSA": "AAAC-GGG", "unaligned_seqs": {"seq0": "AAG", "seq1": "ACGG"}}

5,000+

优质数据集

54 个

任务类型

进入经典数据集