Nhoodie/hgt-bootstrap-v2-synthetic
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/Nhoodie/hgt-bootstrap-v2-synthetic
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
tags:
- dna
- mutation
- synthetic
- icedc
- bootstrap
size_categories:
- 100K<n<1M
---
---
## ⚠️ IMPORTANT WARNING — Synthetic Data Quality
This synthetic dataset was generated using the ICI-DC method from a bootstrap model in a degeneracy chain. The "mutations" are random nucleotide fills (Ti/Tv ratio ~0.50, entropy ~3.52/3.58) that do NOT reflect biological HGT mutation patterns (real Ti/Tv ~0.77, C>T and T>C dominated). Despite being 16× larger than v1, the mutation biology is equally unrealistic — entropy near-maximum and consensus rate ~1.7%.
However, models trained on this data DID develop strong sequence representations (embedding AUC 0.780) even though mutation discrimination was degraded. The dataset has value for representation learning but NOT for mutation pattern learning.
**Use with caution. The domain weighting is correct (Metazoa 33.6%, Archaea 25.2%, etc.) but the mutation patterns are artificial.**
---
# HGT Bootstrap V2 Synthetic Pairs
259,896 synthetic mutation pairs (129,948 train + 129,948 eval) generated via ICI-DC using the bootstrap S2 checkpoint.
## Generation Details
- **Model A**: Nhoodie/omni-dna-sad-mutation-bootstrap (S2 bootstrap checkpoint)
- **Model B**: LongSafari/hyenadna-tiny-1k-seqlen-hf
- **Source sequences**: 4,998 unique sequences from 8 taxonomic domains
- **Gap intervals**: [3, 4, 5, 6] (codon distance between gaps)
- **Seeds**: Train=[42, 137, 7, 23, 31, 89, 53], Eval=[101, 157, 27, 43, 51, 109, 73]
- **Passes**: 4 × 7 = 28 per split
- **Method**: Cross-sequence batched generation (BS=256, dual-process parallel on GTX 1080)
## Properties
- Mean Levenshtein distance: 78.1 (median 72, stdev 26.6, range 24–150)
- Mean codon changes: 26.0 per pair
- Consensus rate: 1.72% (train), 1.73% (eval)
- Zero duplicate pairs across splits
- Zero overlap with v1 dataset
- All 4,998 source sequences contribute equally (~26 per sequence per pass)
## Domain Distribution
| Domain | Pairs | % |
|--------|------:|--:|
| Metazoa | 43,680 | 33.6% |
| Archaea | 32,760 | 25.2% |
| Bacteria | 16,380 | 12.6% |
| Viridiplantae | 10,920 | 8.4% |
| Viruses | 10,920 | 8.4% |
| Viroids | 7,644 | 5.9% |
| Lichenes_HGT | 5,460 | 4.2% |
| Satellite_Viruses | 2,184 | 1.7% |
## Distance Distribution
| Range | Count | % |
|-------|------:|--:|
| 25–49 | 17,185 | 13.2% |
| 50–74 | 47,864 | 36.8% |
| 75–99 | 38,806 | 29.9% |
| 100–124 | 16,167 | 12.4% |
| 125–150 | 9,926 | 7.6% |
## Format
Each line is a JSON object:
```json
{"parent": "ATGCGT...", "child": "ATGCGA...", "distance": 72, "domain": "Bacteria", "pair_type": "sad_synthetic", "quality": {"n_codon_changes": 24, "n_consensus": 0, "n_contested": 24, "n_stop": 0, "source_id": "SYNTH_Bacteria_0001", "generation_method": "FDI_dual_causal", "generation_pass": "gap3_seed42", "split": "train"}}
```
## Related Datasets
- [Nhoodie/hgt-real-mutation-pairs](https://huggingface.co/datasets/Nhoodie/hgt-real-mutation-pairs) — Real mutation pairs (3,317 train + 826 test)
- [Nhoodie/hgt-bootstrap-v1-synthetic](https://huggingface.co/datasets/Nhoodie/hgt-bootstrap-v1-synthetic) — V1 synthetic pairs (8,112, previous iteration)
提供机构:
Nhoodie
搜集汇总
数据集介绍

构建方式
在基因组学领域,合成数据的生成对于扩展训练样本的多样性具有重要价值。该数据集采用ICI-DC方法,基于一个引导模型的退化链生成合成突变对。具体而言,模型A(Nhoodie/omni-dna-sad-mutation-bootstrap的S2引导检查点)与模型B(LongSafari/hyenadna-tiny-1k-seqlen-hf)协同工作,从八个分类域的4,998条独特源序列中,通过交叉序列批处理生成方式,以256的批大小在GTX 1080上并行处理。生成过程中设置了[3, 4, 5, 6]的密码子间隔距离,并利用多组种子(训练集使用[42, 137, 7, 23, 31, 89, 53],评估集使用[101, 157, 27, 43, 51, 109, 73])进行四轮传递,最终产生259,896对合成突变序列,确保各源序列贡献均匀且无重复或与前一版本重叠。
特点
该数据集在合成突变模式上展现出显著的人工特性,其核苷酸填充呈现随机性,转换/颠换比率约为0.50,熵值接近最大值(约3.52/3.58),与真实的水平基因转移突变模式(转换/颠换比率约0.77,以C>T和T>C为主导)存在明显偏差。尽管如此,数据集的分类域权重分布准确,其中后生动物占33.6%,古菌占25.2%,细菌占12.6%,其他域如绿色植物、病毒等亦按比例涵盖。序列对之间的平均编辑距离为78.1,中位数为72,密码子变化均值达26.0,共识率稳定在1.7%左右,这些统计特性为表示学习提供了丰富而一致的结构基础。
使用方法
鉴于该数据集的合成性质,其主要适用于训练深度学习模型以获取强健的序列表示,而非用于学习真实的突变模式。用户可通过加载JSON格式的数据条目,每条包含父序列、子序列、编辑距离、分类域及生成质量等元数据,直接用于模型预训练或表示学习任务。在应用时,建议结合真实突变数据集(如Nhoodie/hgt-real-mutation-pairs)进行对比或微调,以弥补合成数据在生物学真实性上的不足,从而在基因组表示任务中实现更优的嵌入性能(嵌入AUC可达0.780)。使用过程中需谨慎评估其突变模式的局限性,避免在需要精确突变分析的任务中直接依赖。
背景与挑战
背景概述
在计算生物学与基因组学领域,合成数据生成技术为克服真实生物数据稀缺性提供了重要途径。hgt-bootstrap-v2-synthetic数据集由研究团队于近期创建,其核心目标在于通过ICI-DC方法,基于引导模型生成大规模合成DNA突变序列对,以支持水平基因转移(HGT)相关的序列表示学习。该数据集涵盖八个分类学域,包含近26万对合成序列,旨在为深度学习模型提供丰富的训练样本,以增强其对DNA序列结构的表征能力,尽管其突变模式并不反映真实生物学规律。
当前挑战
该数据集面临的挑战主要体现在两个方面:其一,在领域问题层面,水平基因转移研究依赖于准确的突变模式识别,而合成数据中随机核苷酸填充导致的Ti/Tv比率与熵值偏离真实生物学特征,限制了其在突变模式学习任务上的直接应用价值;其二,在构建过程中,生成方法需平衡序列多样性与生物学合理性,同时确保跨序列批处理与并行计算的效率,并维持各分类学域的权重分布准确性,这些技术环节均对数据质量与可用性构成考验。
常用场景
经典使用场景
在基因组学与生物信息学领域,合成数据为模型训练提供了规模化的资源。hgt-bootstrap-v2-synthetic数据集通过ICI-DC方法生成大量合成突变对,其经典使用场景聚焦于DNA序列表示学习。尽管突变模式不反映真实生物学规律,但该数据集凭借其庞大的样本量和多样化的域分布,被广泛用于训练深度学习模型以捕获序列的深层语义特征,尤其在评估模型对序列嵌入和表示能力的泛化性能方面具有重要价值。
实际应用
在实际应用中,hgt-bootstrap-v2-synthetic数据集常被用于预训练生物序列模型,以提升下游任务如物种分类、功能预测或进化关系推断的性能。尽管突变模式不真实,但其正确的域权重分布确保了模型能够学习到跨域序列的通用特征,从而在资源有限的环境中辅助开发更稳健的DNA分析工具,为生物技术研究和诊断应用提供支持。
衍生相关工作
该数据集衍生了一系列经典研究工作,主要集中在合成数据质量评估与模型表示学习能力的关联性分析上。例如,基于此数据集的实验揭示了嵌入AUC达到0.780的强序列表示,尽管突变判别性能下降,这促使后续研究探索如何结合真实突变数据以优化模型。相关数据集如hgt-real-mutation-pairs和hgt-bootstrap-v1-synthetic也被开发,形成了对比研究的基础,推动了基因组学中数据合成与表示学习方法的持续演进。
以上内容由遇见数据集搜集并总结生成



