nd_strict_flip_ranking_split_mut_vs_des_subset1600
收藏Hugging Face2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/fopra2025/nd_strict_flip_ranking_split_mut_vs_des_subset1600
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含三个配置(1-vs-rest、2-vs-rest、3-vs-rest),每个配置具有相同的特征结构但不同的数据划分规模。数据集主要记录序列数据及其突变信息,包含序列ID、序列内容、突变详情、突变数量、全局最小编辑距离、活性等级(字符串类型)、活性值(浮点型)、是否功能性(布尔型)、世代信息、子库名称以及最小编辑距离等特征字段。数据集被划分为训练集(1440个样本)、验证集(160个样本)和多个测试子集(总计45417个样本),其中测试子集根据突变数量(1-14+个突变)进一步细分。该数据集适用于生物序列分析、突变影响预测和蛋白质功能研究等任务。
创建时间:
2026-02-23
原始信息汇总
数据集概述
基本信息
- 数据集名称: nd_strict_flip_ranking_split_mut_vs_des_subset1600
- 地址: https://huggingface.co/datasets/fopra2025/nd_strict_flip_ranking_split_mut_vs_des_subset1600
- 配置数量: 3个
- 总下载大小: 约21.65 MB(三个配置总和)
- 总数据集大小: 约118.84 MB(三个配置总和)
配置详情
数据集包含三个独立的配置,分别为“1-vs-rest”、“2-vs-rest”和“3-vs-rest”。每个配置具有相同的特征字段和相似的数据划分结构。
共同特征
所有配置均包含以下11个特征字段:
sequence_id(字符串): 序列标识符。sequence(字符串): 序列数据。mutations(字符串): 突变信息。num_mutations(整数): 突变数量。global_min_edit_distance(无符号短整数): 全局最小编辑距离。activity_level(字符串): 活性等级。activity(浮点数): 活性值。is_functional(布尔值): 是否具有功能性。generations(字符串): 生成信息。sublibrary_names(字符串): 子库名称。min_edit_distance(无符号短整数): 最小编辑距离。
数据划分
每个配置包含以下数据划分:
主要划分
- 训练集 (train): 1,440 个样本。
- 验证集 (validation): 160 个样本。
- 测试集 (test): 45,417 个样本。
按突变数细分的测试子集
测试集进一步根据突变数量(num_mutations)被划分为多个子集:
test_1_mutations: 387 个样本test_2_mutations: 7,219 个样本test_3_mutations: 6,560 个样本test_4_mutations: 7,188 个样本test_5_mutations: 6,030 个样本test_6_mutations: 4,559 个样本test_7_mutations: 2,958 个样本test_8_mutations: 2,198 个样本test_9_mutations: 1,039 个样本test_10_mutations: 2,449 个样本test_11_mutations: 2,553 个样本test_12_mutations: 1,293 个样本test_13_mutations: 310 个样本test_gt_14_mutations: 674 个样本(大于等于14个突变)
各配置数据规模
| 配置名称 | 下载大小 | 数据集大小 | 总样本数 |
|---|---|---|---|
| 1-vs-rest | 7,183,931 字节 | 39,630,029 字节 | 47,017 |
| 2-vs-rest | 7,226,960 字节 | 39,597,348 字节 | 47,017 |
| 3-vs-rest | 7,253,692 字节 | 39,612,682 字节 | 47,017 |
注: 每个配置的总样本数为训练集、验证集和测试集的样本数之和(1,440 + 160 + 45,417 = 47,017)。按突变数细分的测试子集是测试集(45,417个样本)的组成部分,其样本数总和与测试集样本数一致。
搜集汇总
数据集介绍
构建方式
在蛋白质工程领域,精准评估突变体功能对于理解序列-活性关系至关重要。nd_strict_flip_ranking_split_mut_vs_des_subset1600数据集通过系统化的实验设计构建而成,其核心在于对蛋白质序列进行突变分析。数据集以原始野生型序列为基础,引入不同数量的氨基酸突变,生成大量变异序列,并测量其活性水平。构建过程采用了严格的筛选标准,确保突变体在编辑距离和功能表征上具有代表性。数据被划分为训练、验证和测试集,其中测试集进一步细分为基于突变数量的子集,如1至13个突变及超过14个突变的类别,这种分层设计有助于模型在不同复杂度突变场景下的评估。
特点
该数据集展现了蛋白质突变研究中的多维特征结构。每个样本包含序列标识符、原始序列、突变描述、突变数量以及全局最小编辑距离等关键属性。活性水平以字符串和浮点数形式标注,同时提供功能性的布尔判断,增强了数据的可解释性。数据集的独特之处在于其配置多样性,提供了“1-vs-rest”、“2-vs-rest”和“3-vs-rest”三种分类视角,支持从不同突变阈值进行模型训练。测试集的细分允许研究人员针对特定突变数量开展分析,例如探究单点突变或多点突变对蛋白质功能的影响,这为机器学习模型提供了丰富的监督信号。
使用方法
使用该数据集时,研究人员可依托其结构化分割开展机器学习任务。训练集包含1440个样本,验证集160个,测试集则规模较大,达45417个样本,确保了模型评估的统计稳健性。用户可以根据需求选择不同配置,例如在“1-vs-rest”配置中,模型可学习区分单突变体与其他突变类别。数据加载可通过HuggingFace库实现,直接指定配置名称和分割路径即可访问相应文件。在实际应用中,该数据集适用于分类、回归或排序模型,尤其适合探索蛋白质序列突变与活性之间的非线性关系,为生物信息学中的功能预测提供基准。
背景与挑战
背景概述
在蛋白质工程与计算生物学领域,精准预测突变对蛋白质功能的影响是核心研究议题。nd_strict_flip_ranking_split_mut_vs_des_subset1600数据集应运而生,旨在系统评估蛋白质序列突变与功能活性之间的复杂关联。该数据集通过整合多组突变序列及其活性数据,为机器学习模型提供了结构化基准,以探索蛋白质功能空间的深层规律。其构建体现了对蛋白质设计自动化与理性工程的前沿追求,推动了生物信息学中序列-功能关系建模的进展。
当前挑战
该数据集致力于解决蛋白质功能预测中突变效应量化这一根本挑战,其核心在于准确建模高维序列空间到连续活性值的非线性映射。构建过程中面临多重困难:突变组合的爆炸式增长导致数据稀疏性,需精心设计采样策略以覆盖关键变异;活性测量存在实验噪声与批次差异,要求严格的数据标准化流程;同时,确保序列多样性并维持与野生型的编辑距离可解释性,增加了数据标注与分区的复杂性。
常用场景
经典使用场景
在蛋白质工程领域,序列功能预测是核心挑战之一,nd_strict_flip_ranking_split_mut_vs_des_subset1600数据集为此提供了结构化基准。该数据集通过严格的突变与设计序列对比划分,支持机器学习模型学习蛋白质序列与活性之间的复杂映射关系。其经典使用场景在于训练和评估监督学习模型,如深度神经网络,以预测突变序列的功能性水平,从而加速蛋白质定向进化过程。
解决学术问题
该数据集有效解决了蛋白质工程中序列-功能关系建模的若干学术难题。它提供了大规模、高维度的突变序列数据,并标注了活性等级和编辑距离,使得研究者能够探究突变累积对蛋白质功能的影响机制。其意义在于为定量分析突变效应提供了标准化数据,推动了计算生物学中可解释性模型的发展,并为理解蛋白质序列空间的结构特性奠定了实证基础。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。例如,基于其构建的图神经网络模型用于捕获序列突变间的拓扑关系,以及注意力机制模型用于识别关键突变位点。这些工作不仅提升了序列功能预测的准确性,还促进了蛋白质表示学习领域的发展,为后续的零样本预测和生成模型提供了重要参考。
以上内容由遇见数据集搜集并总结生成



