dotan1111/MSA-amino-5-seq
收藏Hugging Face2023-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dotan1111/MSA-amino-5-seq
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于训练、验证和测试的蛋白质和DNA的多序列对齐数据。数据生成使用了SpartaABC工具,基于随机生成的系统发育树和特定的参数设置。蛋白质数据集使用了WAG+G模型,DNA数据集使用了GTR+G模型。生成的数据集包括1,495,000个训练样本、2,000个验证样本和3,000个测试样本,每个样本包含十个序列。
提供机构:
dotan1111
原始信息汇总
多序列比对作为序列到序列学习问题
数据
- 数据生成工具:使用SpartaABC生成数百万个真实比对。
- 输入要求:
- 有根的系统发育树,包括拓扑结构和分支长度。
- 替换模型(氨基酸或核苷酸)。
- 根序列长度。
- 插入和删除模型参数,包括插入率(R_I)、删除率(R_D)、插入Zipfian分布参数(A_I)和删除Zipfian分布参数(A_D)。
- 系统发育树生成:使用ETE版本3.0生成随机系统发育树拓扑结构,默认参数。
- 数据集规模:
- 蛋白质MSA:1,495,000个用于训练,2,000个用于验证,3,000个用于测试。
- DNA MSA:同样数量的DNA MSA。
- 分支长度:从均匀分布*(0.5,1.0)*中抽取。
- 序列生成参数:
- 插入率和删除率:R_I,R_D in (0.0,0.05)。
- Zipfian分布参数:A_I, A_D in (1.01,2.0)。
- 根序列长度:从均匀分布*[32,44]*中抽取。
- 模型参数:
- 蛋白质数据集:使用WAG+G模型。
- DNA数据集:使用GTR+G模型。
- 核苷酸频率:(0.37, 0.166, 0.307, 0.158),顺序为"T", "C", "A", "G"。
- 替换率:(0.444, 0.0843, 0.116, 0.107, 0.00027),顺序为"a", "b", "c", "d", "e"。
示例
以下示例对应上图中的MSA:
json {"MSA": "AAAC-GGG", "unaligned_seqs": {"seq0": "AAG", "seq1": "ACGG"}}



