nd_strict_flip_ranking_split_mut_vs_des_subset1600

Hugging Face2026-03-03 更新2026-03-04 收录

下载链接：

https://huggingface.co/datasets/fopra2025/nd_strict_flip_ranking_split_mut_vs_des_subset1600

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个配置（1-vs-rest、2-vs-rest、3-vs-rest），每个配置具有相同的特征结构但不同的数据划分规模。数据集主要记录序列数据及其突变信息，包含序列ID、序列内容、突变详情、突变数量、全局最小编辑距离、活性等级（字符串类型）、活性值（浮点型）、是否功能性（布尔型）、世代信息、子库名称以及最小编辑距离等特征字段。数据集被划分为训练集（1440个样本）、验证集（160个样本）和多个测试子集（总计45417个样本），其中测试子集根据突变数量（1-14+个突变）进一步细分。该数据集适用于生物序列分析、突变影响预测和蛋白质功能研究等任务。

创建时间：

2026-02-23

原始信息汇总

数据集概述

基本信息

数据集名称: nd_strict_flip_ranking_split_mut_vs_des_subset1600
地址: https://huggingface.co/datasets/fopra2025/nd_strict_flip_ranking_split_mut_vs_des_subset1600
配置数量: 3个
总下载大小: 约21.65 MB（三个配置总和）
总数据集大小: 约118.84 MB（三个配置总和）

配置详情

数据集包含三个独立的配置，分别为“1-vs-rest”、“2-vs-rest”和“3-vs-rest”。每个配置具有相同的特征字段和相似的数据划分结构。

共同特征

所有配置均包含以下11个特征字段：

sequence_id (字符串): 序列标识符。
sequence (字符串): 序列数据。
mutations (字符串): 突变信息。
num_mutations (整数): 突变数量。
global_min_edit_distance (无符号短整数): 全局最小编辑距离。
activity_level (字符串): 活性等级。
activity (浮点数): 活性值。
is_functional (布尔值): 是否具有功能性。
generations (字符串): 生成信息。
sublibrary_names (字符串): 子库名称。
min_edit_distance (无符号短整数): 最小编辑距离。

数据划分

每个配置包含以下数据划分：

主要划分

训练集 (train): 1,440 个样本。
验证集 (validation): 160 个样本。
测试集 (test): 45,417 个样本。

按突变数细分的测试子集

测试集进一步根据突变数量（num_mutations）被划分为多个子集：

test_1_mutations: 387 个样本
test_2_mutations: 7,219 个样本
test_3_mutations: 6,560 个样本
test_4_mutations: 7,188 个样本
test_5_mutations: 6,030 个样本
test_6_mutations: 4,559 个样本
test_7_mutations: 2,958 个样本
test_8_mutations: 2,198 个样本
test_9_mutations: 1,039 个样本
test_10_mutations: 2,449 个样本
test_11_mutations: 2,553 个样本
test_12_mutations: 1,293 个样本
test_13_mutations: 310 个样本
test_gt_14_mutations: 674 个样本（大于等于14个突变）

各配置数据规模

配置名称	下载大小	数据集大小	总样本数
1-vs-rest	7,183,931 字节	39,630,029 字节	47,017
2-vs-rest	7,226,960 字节	39,597,348 字节	47,017
3-vs-rest	7,253,692 字节	39,612,682 字节	47,017

注: 每个配置的总样本数为训练集、验证集和测试集的样本数之和（1,440 + 160 + 45,417 = 47,017）。按突变数细分的测试子集是测试集（45,417个样本）的组成部分，其样本数总和与测试集样本数一致。

搜集汇总

数据集介绍

构建方式

在蛋白质工程领域，精准评估突变体功能对于理解序列-活性关系至关重要。nd_strict_flip_ranking_split_mut_vs_des_subset1600数据集通过系统化的实验设计构建而成，其核心在于对蛋白质序列进行突变分析。数据集以原始野生型序列为基础，引入不同数量的氨基酸突变，生成大量变异序列，并测量其活性水平。构建过程采用了严格的筛选标准，确保突变体在编辑距离和功能表征上具有代表性。数据被划分为训练、验证和测试集，其中测试集进一步细分为基于突变数量的子集，如1至13个突变及超过14个突变的类别，这种分层设计有助于模型在不同复杂度突变场景下的评估。

特点

该数据集展现了蛋白质突变研究中的多维特征结构。每个样本包含序列标识符、原始序列、突变描述、突变数量以及全局最小编辑距离等关键属性。活性水平以字符串和浮点数形式标注，同时提供功能性的布尔判断，增强了数据的可解释性。数据集的独特之处在于其配置多样性，提供了“1-vs-rest”、“2-vs-rest”和“3-vs-rest”三种分类视角，支持从不同突变阈值进行模型训练。测试集的细分允许研究人员针对特定突变数量开展分析，例如探究单点突变或多点突变对蛋白质功能的影响，这为机器学习模型提供了丰富的监督信号。

使用方法

使用该数据集时，研究人员可依托其结构化分割开展机器学习任务。训练集包含1440个样本，验证集160个，测试集则规模较大，达45417个样本，确保了模型评估的统计稳健性。用户可以根据需求选择不同配置，例如在“1-vs-rest”配置中，模型可学习区分单突变体与其他突变类别。数据加载可通过HuggingFace库实现，直接指定配置名称和分割路径即可访问相应文件。在实际应用中，该数据集适用于分类、回归或排序模型，尤其适合探索蛋白质序列突变与活性之间的非线性关系，为生物信息学中的功能预测提供基准。

背景与挑战

背景概述

在蛋白质工程与计算生物学领域，精准预测突变对蛋白质功能的影响是核心研究议题。nd_strict_flip_ranking_split_mut_vs_des_subset1600数据集应运而生，旨在系统评估蛋白质序列突变与功能活性之间的复杂关联。该数据集通过整合多组突变序列及其活性数据，为机器学习模型提供了结构化基准，以探索蛋白质功能空间的深层规律。其构建体现了对蛋白质设计自动化与理性工程的前沿追求，推动了生物信息学中序列-功能关系建模的进展。

当前挑战

该数据集致力于解决蛋白质功能预测中突变效应量化这一根本挑战，其核心在于准确建模高维序列空间到连续活性值的非线性映射。构建过程中面临多重困难：突变组合的爆炸式增长导致数据稀疏性，需精心设计采样策略以覆盖关键变异；活性测量存在实验噪声与批次差异，要求严格的数据标准化流程；同时，确保序列多样性并维持与野生型的编辑距离可解释性，增加了数据标注与分区的复杂性。

常用场景

经典使用场景

在蛋白质工程领域，序列功能预测是核心挑战之一，nd_strict_flip_ranking_split_mut_vs_des_subset1600数据集为此提供了结构化基准。该数据集通过严格的突变与设计序列对比划分，支持机器学习模型学习蛋白质序列与活性之间的复杂映射关系。其经典使用场景在于训练和评估监督学习模型，如深度神经网络，以预测突变序列的功能性水平，从而加速蛋白质定向进化过程。

解决学术问题

该数据集有效解决了蛋白质工程中序列-功能关系建模的若干学术难题。它提供了大规模、高维度的突变序列数据，并标注了活性等级和编辑距离，使得研究者能够探究突变累积对蛋白质功能的影响机制。其意义在于为定量分析突变效应提供了标准化数据，推动了计算生物学中可解释性模型的发展，并为理解蛋白质序列空间的结构特性奠定了实证基础。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作。例如，基于其构建的图神经网络模型用于捕获序列突变间的拓扑关系，以及注意力机制模型用于识别关键突变位点。这些工作不仅提升了序列功能预测的准确性，还促进了蛋白质表示学习领域的发展，为后续的零样本预测和生成模型提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集