dotan1111/MSA-nuc-3-seq

Name: dotan1111/MSA-nuc-3-seq
Creator: dotan1111
Published: 2023-09-18 11:49:24
License: 暂无描述

Hugging Face2023-09-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dotan1111/MSA-nuc-3-seq

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含由SpartaABC生成的数百万个真实对齐序列，用于训练、验证和测试BetaAlign模型。数据集包括蛋白质和DNA的多序列对齐（MSA），每个数据集包含十个序列。生成数据时使用了随机生成的系统发育树和不同的插入、删除模型参数。蛋白质数据集使用WAG+G模型生成，DNA数据集使用GTR+G模型生成。

提供机构：

dotan1111

原始信息汇总

多序列比对作为序列到序列学习问题

数据

数据生成工具：使用SpartaABC生成数百万个真实比对。
输入要求：
1. 有根的系统发育树，包括拓扑结构和分支长度。
2. 替换模型（氨基酸或核苷酸）。
3. 根序列长度。
4. 插入和删除模型参数，包括插入率（R_I）、删除率（R_D）、插入Zipfian分布参数（A_I）和删除Zipfian分布参数（A_D）。
系统发育树生成：使用ETE版本3.0生成随机系统发育树拓扑结构，默认参数。
数据集规模：
- 蛋白质MSA：1,495,000个用于训练，2,000个用于验证，3,000个用于测试。
- DNA MSA：数量与蛋白质MSA相同。
分支长度：从均匀分布*(0.5,1.0)*中抽取。
序列生成参数：
- 插入率和删除率：R_I, R_D ∈ (0.0, 0.05)。
- Zipfian分布参数：A_I, A_D ∈ (1.01, 2.0)。
- 根序列长度：从均匀分布*[32, 44]*中抽取。
模型参数：
- 蛋白质数据集：使用WAG+G模型。
- DNA数据集：使用GTR+G模型。
- 核苷酸频率：(0.37, 0.166, 0.307, 0.158)，顺序为"T", "C", "A", "G"。
- 替换率：(0.444, 0.0843, 0.116, 0.107, 0.00027)，顺序为"a", "b", "c", "d", "e"。

示例

以下示例对应上图中的MSA：

json {"MSA": "AAAC-GGG", "unaligned_seqs": {"seq0": "AAG", "seq1": "ACGG"}}

5,000+

优质数据集

54 个

任务类型

进入经典数据集