dotan1111/MSA-amino-10-seq
收藏Hugging Face2023-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dotan1111/MSA-amino-10-seq
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练、验证和测试BetaAlign方法,BetaAlign是一种使用NLP技术进行序列对齐的方法。数据通过SpartaABC工具生成,包括蛋白质和DNA的多序列对齐(MSA)数据。生成数据时使用了随机生成的系统发育树、替换模型、根序列长度和插入/删除模型参数。训练集包含1,495,000个蛋白质和DNA的MSA,验证集和测试集分别包含2,000和3,000个MSA。每个随机树的枝长从均匀分布中抽取,序列生成时使用了特定的插入/删除率和Zipfian分布参数。蛋白质数据集使用WAG+G模型生成,DNA数据集使用GTR+G模型生成。
提供机构:
dotan1111
原始信息汇总
多序列比对作为序列到序列学习问题
数据
我们使用SpartaABC(Loewenthal et al., 2021)生成数百万个真实比对。SpartaABC需要以下输入:
- 一个有根的系统发育树,包括拓扑结构和分支长度;
- 替换模型(氨基酸或核苷酸);
- 根序列长度;
- 插入删除模型参数,包括:插入率(R_I),删除率(R_D),插入Zipfian分布参数(A_I),和删除Zipfian分布参数(A_D)。
我们生成了1,495,000个、2,000个和3,000个蛋白质多序列比对(MSAs),分别用于训练、验证和测试数据。我们生成了相同数量的DNA MSAs。对于每个随机树,分支长度从范围*(0.5,1.0)的均匀分布中抽取。接下来,使用SpartaABC生成序列,参数如下:R_I,R_D in (0.0,0.05),A_I, A_D in (1.01,2.0)。比对长度以及树叶序列长度在数据集之间和内部变化,因为它们取决于插入删除动态和根长度。根长度在范围[32,44]*内均匀采样。除非另有说明,所有蛋白质数据集均使用WAG+G模型生成,所有DNA数据集均使用GTR+G模型生成,参数如下:
- 不同核苷酸的频率*(0.37, 0.166, 0.307, 0.158)*,顺序为"T", "C", "A"和"G";
- 替换率*(0.444, 0.0843, 0.116, 0.107, 0.00027)*,顺序为"a", "b", "c", "d"和"e"。
示例
以下示例对应上图中的MSA:
json {"MSA": "AAAC-GGG", "unaligned_seqs": {"seq0": "AAG", "seq1": "ACGG"}}



