Nhoodie/hgt-real-mutation-pairs

Name: Nhoodie/hgt-real-mutation-pairs
Creator: Nhoodie
Published: 2026-04-10 23:18:43
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/Nhoodie/hgt-real-mutation-pairs

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit tags: - dna - mutation - hgt - cross-domain size_categories: - 1K<n<10K --- --- ## ℹ️ Dataset Note This is the primary ground-truth dataset for HGT mutation prediction. It contains real biological mutation pairs with authentic HGT signatures (Ti/Tv ratio ~0.77, dominated by C>T and T>C transitions consistent with viral polymerase error patterns). This dataset is **not** affected by the ICI-DC degeneracy issues identified in synthetic datasets. --- # HGT Real Mutation Pairs Real mutation pairs across 8 taxonomic domains for cross-domain horizontal gene transfer (HGT) mutation prediction. ## Dataset Details | Split | Pairs | Mean mutation rate | Mean distance | |-------|-------|-------------------|---------------| | train | 3,317 | ~4.2% | ~6 nt | | test | 826 | ~1.2% | 2.2 nt | ## Domains | Domain | Sequences | Rationale | |--------|-----------|-----------| | Archaea | 1,260 | Thermophile/halophile HGT | | Bacteria | 630 | Primary HGT domain | | Lichenes_HGT | 210 | Inter-kingdom HGT (fungi↔algae) | | Metazoa | 1,680 | Microbiome HGT | | Satellite_Viruses | 84 | Subviral agents | | Viridiplantae | 420 | Limited bacterial→plant HGT | | Viroids | 294 | Small RNA pathogens | | Viruses | 420 | Phage transduction | ## Format Each line is a JSON object: ```json {"parent": "ATGCGT...", "child": "ATGCGA...", "domain": "Bacteria", "distance": 3, "source_ids": ["AB123456"]} ``` ## Pipeline 1. Sequences fetched from NCBI with HGT-weighted sampling across 8 domains 2. Stop-codon-aware greedy chunking (~500bp) 3. Domain-aware nearest-neighbor pair building (C Levenshtein) 4. Leakage-free train/test split via connected-component clustering ## Related Datasets - [Nhoodie/hgt-bootstrap-v1-synthetic](https://huggingface.co/datasets/Nhoodie/hgt-bootstrap-v1-synthetic) — 8,112 synthetic pairs (ICI-DC v1) - [Nhoodie/hgt-bootstrap-v2-synthetic](https://huggingface.co/datasets/Nhoodie/hgt-bootstrap-v2-synthetic) — 256K synthetic pairs (ICI-DC v2)

提供机构：

Nhoodie

搜集汇总

数据集介绍

构建方式

在水平基因转移研究领域，构建高质量的真实突变对数据集对于揭示跨域遗传物质交换的分子机制至关重要。本数据集通过从NCBI数据库中采用水平基因转移加权采样策略，系统性地获取了涵盖古菌、细菌、地衣、后生动物、卫星病毒、绿色植物、类病毒及病毒等八个分类域的序列。随后，利用基于终止密码子识别的贪婪分块方法，将序列切割为约500碱基对的片段，并通过域感知的最近邻配对算法，依据Levenshtein距离构建亲本与子代序列对，最终采用基于连通分量聚类的无泄漏划分方式，确保了训练集与测试集之间的独立性。

特点

该数据集的核心特征在于其真实生物学背景与严谨的统计特性。所有突变对均源自真实的生物序列，其转换与颠换比率约为0.77，呈现出以C>T和T>C转换为主导的模式，这与病毒聚合酶的错误谱高度一致，从而提供了真实的水平基因转移突变特征。数据集有效规避了合成数据中常见的ICI-DC简并性问题，确保了数据的生物学可信度。此外，数据覆盖了八个具有不同水平基因转移模式的分类域，包括从古菌的嗜热/嗜盐转移到地衣的跨界转移，为研究跨域遗传变异提供了丰富的场景。

使用方法

在基因组学与生物信息学研究中，该数据集主要用于开发和评估水平基因转移背景下的突变预测模型。数据以每行一个JSON对象的格式提供，包含亲本序列、子代序列、所属分类域、编辑距离及来源标识符等关键字段。研究者可直接加载该数据集，利用训练集中的三千余对序列进行模型训练，并通过测试集中的八百余对序列进行性能验证。鉴于其无泄漏的划分设计，模型评估结果能够可靠地反映其泛化能力。该数据集亦可与相关的合成数据集结合使用，以进行模型鲁棒性的进一步分析。

背景与挑战

背景概述

水平基因转移作为微生物进化与适应性的关键驱动力，其突变模式的精准预测一直是计算生物学与基因组学领域的核心研究议题。HGT Real Mutation Pairs数据集由研究人员Nhoodie及其团队构建，旨在为跨域水平基因转移突变预测提供高质量的真实生物学数据基础。该数据集聚焦于八个分类域，包括古菌、细菌、地衣、后生动物等，通过从NCBI获取序列并采用HGT加权采样策略，构建了包含数千对真实突变序列的数据集，其突变特征如Ti/Tv比率约0.77，与病毒聚合酶错误模式一致，有效规避了合成数据集中常见的ICI-DC简并性问题，为相关算法开发与模型验证提供了可靠的基准。

当前挑战

在水平基因转移突变预测领域，核心挑战在于准确建模跨域遗传物质交换中复杂的突变模式，包括碱基替换偏好、序列距离变异以及不同生物域间的特异性差异。HGT Real Mutation Pairs数据集的构建过程亦面临多重技术难题：需在八个异质性显著的分类域中实现HGT加权采样，确保数据代表性；采用基于停止密码子感知的贪婪分块策略处理序列长度与结构多样性；通过基于连通分量的聚类方法执行无泄漏的训练测试分割，以维持评估的严谨性。这些挑战共同凸显了在真实生物背景下构建高质量、无偏差突变数据集的复杂性。

常用场景

经典使用场景

在水平基因转移研究领域，HGT Real Mutation Pairs数据集为跨域突变预测提供了关键基准。该数据集通过涵盖古菌、细菌、病毒等八个分类域的真实生物突变对，支持机器学习模型在模拟自然突变模式下的训练与评估，其经典的Ti/Tv比值约0.77，反映了病毒聚合酶错误特征，常用于开发精准的HGT突变识别算法。

解决学术问题

该数据集有效解决了水平基因转移研究中合成数据存在的ICI-DC退化问题，提供了具有真实生物学特征的突变对，从而提升了突变预测模型的泛化能力与可靠性。其意义在于为跨域基因转移机制的分析奠定了实证基础，推动了进化生物学与计算基因组学在突变模式识别方面的理论进展。

衍生相关工作

基于该数据集，衍生出多项经典研究工作，包括开发基于深度学习的跨域突变预测模型、构建合成数据增强流程以扩展训练样本，以及应用于宏基因组学中的HGT事件检测工具。这些工作进一步丰富了水平基因转移的计算分析方法体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集