five

dotan1111/MSA-amino-8-seq

收藏
Hugging Face2023-09-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dotan1111/MSA-amino-8-seq
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于训练、验证和测试的蛋白质和DNA多序列对齐数据。数据生成使用了SpartaABC工具,基于随机生成的系统发育树和不同的进化模型参数(如插入率、删除率、Zipfian分布参数等)。具体生成了1,495,000个训练数据、2,000个验证数据和3,000个测试数据的蛋白质和DNA多序列对齐。每个随机树的枝长从均匀分布中抽取,序列长度和对齐长度因插入删除动态和根序列长度而异。蛋白质数据集使用WAG+G模型生成,DNA数据集使用GTR+G模型生成。
提供机构:
dotan1111
原始信息汇总

多序列比对作为序列到序列学习问题

数据集概述

  • 数据集名称: BetaAlign
  • 数据集类型: 多序列比对(MSA)数据集
  • 数据集用途: 用于训练、验证和测试序列到序列学习模型

数据生成方法

  • 生成工具: SpartaABC
  • 输入参数:
    • 根系进化树(包括拓扑结构和分支长度)
    • 替换模型(氨基酸或核苷酸)
    • 根序列长度
    • 插入和删除模型参数(插入率、删除率、插入Zipfian分布参数、删除Zipfian分布参数)
  • 树生成工具: ETE 3.0
  • 参数设置:
    • 分支长度:均匀分布在(0.5,1.0)范围内
    • 插入率、删除率:(0.0,0.05)
    • 插入Zipfian分布参数、删除Zipfian分布参数:(1.01,2.0)
    • 根序列长度:均匀分布在[32,44]范围内

数据集规模

  • 蛋白质MSA:
    • 训练数据:1,495,000个
    • 验证数据:2,000个
    • 测试数据:3,000个
  • DNA MSA:
    • 训练数据:1,495,000个
    • 验证数据:2,000个
    • 测试数据:3,000个

数据集细节

  • 蛋白质模型: WAG+G模型
  • DNA模型: GTR+G模型
  • 核苷酸频率: (0.37, 0.166, 0.307, 0.158),顺序为"T", "C", "A", "G"
  • 替换率: (0.444, 0.0843, 0.116, 0.107, 0.00027),顺序为"a", "b", "c", "d", "e"

示例

json {"MSA": "AAAC-GGG", "unaligned_seqs": {"seq0": "AAG", "seq1": "ACGG"}}

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作