five

dotan1111/MSA-nuc-8-seq

收藏
Hugging Face2023-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dotan1111/MSA-nuc-8-seq
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于训练、验证和测试的蛋白质和DNA的多序列对齐数据。数据生成使用了SpartaABC工具,结合随机生成的系统发育树和特定的参数(如插入率、删除率、Zipfian分布参数等)来模拟真实的对齐数据。蛋白质数据集使用了WAG+G模型,DNA数据集使用了GTR+G模型。训练集包含1,495,000个对齐数据,验证集和测试集分别包含2,000和3,000个对齐数据。
提供机构:
dotan1111
原始信息汇总

多序列比对作为序列到序列学习问题

摘要

序列比对问题是生物信息学中最基本的问题之一,已有多种方法被设计来解决它。本文介绍了BetaAlign,一种使用自然语言处理方法进行序列比对的方法。BetaAlign通过使用一组变换器模型,每个模型在不同的进化模型生成的数百万个样本上进行训练,考虑了不同数据集之间进化过程的可能变异性。我们的方法在比对准确性上与常用的方法(如MAFFT、DIALIGN、ClustalW、T-Coffee、PRANK和MUSCLE)相当,甚至更优。

数据

我们使用SpartaABC(Loewenthal et al., 2021)生成了数百万个真实比对。SpartaABC需要以下输入:(1) 一个有根的系统发育树,包括拓扑结构和分支长度;(2) 替换模型(氨基酸或核苷酸);(3) 根序列长度;(4) 插入和删除模型参数,包括插入率(R_I)、删除率(R_D)、插入Zipfian分布参数(A_I)和删除Zipfian分布参数(A_D)。多序列比对(MSA)沿着使用ETE 3.0程序(Huerta-Cepas et al., 2016)生成的随机系统发育树拓扑结构进行模拟,默认参数。

我们生成了1,495,000、2,000和3,000个蛋白质MSA,分别用于训练、验证和测试数据。我们生成了相同数量的DNA MSA。对于每个随机树,分支长度从范围*(0.5,1.0)内的均匀分布中抽取。接下来,使用SpartaABC生成序列,参数为R_I,R_D in (0.0,0.05)A_I, A_D in (1.01,2.0)。比对长度以及树叶的序列长度在数据集内部和之间变化,因为它们取决于插入和删除动态以及根长度。根长度在范围[32,44]内均匀采样。除非另有说明,所有蛋白质数据集都是使用WAG+G模型生成的,所有DNA数据集都是使用GTR+G模型生成的,参数如下:(1) 不同核苷酸的频率(0.37, 0.166, 0.307, 0.158),顺序为"T", "C", "A"和"G";(2) 替换率(0.444, 0.0843, 0.116, 0.107, 0.00027)*,顺序为"a", "b", "c", "d"和"e"。

示例

以下示例对应于上图中的MSA:

json {"MSA": "AAAC-GGG", "unaligned_seqs": {"seq0": "AAG", "seq1": "ACGG"}}

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作