five

dotan1111/MSA-nuc-3-seq

收藏
Hugging Face2023-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dotan1111/MSA-nuc-3-seq
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含由SpartaABC生成的数百万个真实对齐序列,用于训练、验证和测试BetaAlign模型。数据集包括蛋白质和DNA的多序列对齐(MSA),每个数据集包含十个序列。生成数据时使用了随机生成的系统发育树和不同的插入、删除模型参数。蛋白质数据集使用WAG+G模型生成,DNA数据集使用GTR+G模型生成。
提供机构:
dotan1111
原始信息汇总

多序列比对作为序列到序列学习问题

数据

  • 数据生成工具:使用SpartaABC生成数百万个真实比对。
  • 输入要求
    1. 有根的系统发育树,包括拓扑结构和分支长度。
    2. 替换模型(氨基酸或核苷酸)。
    3. 根序列长度。
    4. 插入和删除模型参数,包括插入率(R_I)、删除率(R_D)、插入Zipfian分布参数(A_I)和删除Zipfian分布参数(A_D)。
  • 系统发育树生成:使用ETE版本3.0生成随机系统发育树拓扑结构,默认参数。
  • 数据集规模
    • 蛋白质MSA:1,495,000个用于训练,2,000个用于验证,3,000个用于测试。
    • DNA MSA:数量与蛋白质MSA相同。
  • 分支长度:从均匀分布*(0.5,1.0)*中抽取。
  • 序列生成参数
    • 插入率和删除率:R_I, R_D ∈ (0.0, 0.05)
    • Zipfian分布参数:A_I, A_D ∈ (1.01, 2.0)
    • 根序列长度:从均匀分布*[32, 44]*中抽取。
  • 模型参数
    • 蛋白质数据集:使用WAG+G模型。
    • DNA数据集:使用GTR+G模型。
    • 核苷酸频率:(0.37, 0.166, 0.307, 0.158),顺序为"T", "C", "A", "G"。
    • 替换率:(0.444, 0.0843, 0.116, 0.107, 0.00027),顺序为"a", "b", "c", "d", "e"。

示例

以下示例对应上图中的MSA:

json {"MSA": "AAAC-GGG", "unaligned_seqs": {"seq0": "AAG", "seq1": "ACGG"}}

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作