five

dotan1111/MSA-amino-7-seq

收藏
Hugging Face2023-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dotan1111/MSA-amino-7-seq
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过SpartaABC工具生成的,用于训练和测试BetaAlign方法。数据集包括蛋白质和DNA的多序列对齐(MSA),分别生成了1,495,000个训练样本、2,000个验证样本和3,000个测试样本。生成数据集时,使用了随机生成的系统发育树,并设置了插入率、删除率、Zipfian分布参数等。蛋白质数据集使用WAG+G模型生成,DNA数据集使用GTR+G模型生成。数据集的对齐长度和序列长度因插入删除动态和根序列长度而异。

该数据集是通过SpartaABC工具生成的,用于训练和测试BetaAlign方法。数据集包括蛋白质和DNA的多序列对齐(MSA),分别生成了1,495,000个训练样本、2,000个验证样本和3,000个测试样本。生成数据集时,使用了随机生成的系统发育树,并设置了插入率、删除率、Zipfian分布参数等。蛋白质数据集使用WAG+G模型生成,DNA数据集使用GTR+G模型生成。数据集的对齐长度和序列长度因插入删除动态和根序列长度而异。
提供机构:
dotan1111
原始信息汇总

多序列比对作为序列到序列学习问题

数据

  • 数据生成工具:使用SpartaABC生成数百万个真实比对。
  • 输入参数
    • 根系进化树,包括拓扑结构和分支长度。
    • 替换模型(氨基酸或核苷酸)。
    • 根序列长度。
    • 插入和删除模型参数,包括插入率(R_I)、删除率(R_D)、插入Zipfian分布参数(A_I)和删除Zipfian分布参数(A_D)。
  • 数据集规模
    • 生成了1,495,000个蛋白质多序列比对(MSA)用于训练,2,000个用于验证,3,000个用于测试。
    • 生成了相同数量的DNA MSA。
  • 树参数
    • 随机生成树的拓扑结构,使用ETE版本3.0生成,默认参数。
    • 分支长度从均匀分布*(0.5,1.0)*中抽取。
  • 序列生成参数
    • 使用SpartaABC生成序列,参数为R_I,R_D in (0.0,0.05)A_I, A_D in (1.01,2.0)
    • 根序列长度从均匀分布*[32,44]*中抽取。
  • 模型参数
    • 蛋白质数据集使用WAG+G模型。
    • DNA数据集使用GTR+G模型,参数包括核苷酸频率和替换率。

示例

以下示例对应上图中的MSA:

json {"MSA": "AAAC-GGG", "unaligned_seqs": {"seq0": "AAG", "seq1": "ACGG"}}

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作