nd_strict_flip_ranking_split_mut_vs_des_subset3200

Hugging Face2026-03-03 更新2026-03-04 收录

下载链接：

https://huggingface.co/datasets/fopra2025/nd_strict_flip_ranking_split_mut_vs_des_subset3200

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个配置：'2-vs-rest' 和 '3-vs-rest'，均涉及生物序列及其突变数据。数据集包含以下字段：序列ID（sequence_id）、序列（sequence）、突变（mutations）、突变数量（num_mutations）、全局最小编辑距离（global_min_edit_distance）、活性级别（activity_level）、活性值（activity）、是否功能性（is_functional）、世代（generations）、子库名称（sublibrary_names）和最小编辑距离（min_edit_distance）。数据分为训练集、验证集和测试集，其中测试集进一步按突变数量（1至13及大于14）细分为多个子集。'2-vs-rest'配置的训练集包含2880个样本，验证集320个，测试集45417个；'3-vs-rest'配置的训练集和验证集规模相同，测试集规模一致。数据集总大小约为40MB，适用于生物序列分析、突变效应预测等任务。

创建时间：

2026-02-23

原始信息汇总

数据集概述

基本信息

数据集名称: nd_strict_flip_ranking_split_mut_vs_des_subset3200
来源地址: https://huggingface.co/datasets/fopra2025/nd_strict_flip_ranking_split_mut_vs_des_subset3200
下载大小: 7,307,464 字节 (2-vs-rest 配置) / 7,360,316 字节 (3-vs-rest 配置)
数据集大小: 40,206,700 字节 (2-vs-rest 配置) / 40,244,985 字节 (3-vs-rest 配置)

配置与特征

数据集包含两种配置：2-vs-rest 和 3-vs-rest。两种配置具有相同的特征结构。

数据特征

sequence_id: 字符串类型，序列标识符。
sequence: 字符串类型，序列数据。
mutations: 字符串类型，突变信息。
num_mutations: 整型 (int64)，突变数量。
global_min_edit_distance: 无符号整型 (uint16)，全局最小编辑距离。
activity_level: 字符串类型，活性水平。
activity: 浮点型 (float64)，活性值。
is_functional: 布尔型，是否具有功能。
generations: 字符串类型，世代信息。
sublibrary_names: 字符串类型，子库名称。
min_edit_distance: 无符号整型 (uint16)，最小编辑距离。

数据划分

配置: 2-vs-rest

训练集 (train): 2,880 个样本，1,094,950 字节。
验证集 (validation): 320 个样本，121,489 字节。
测试集 (test): 45,417 个样本，19,495,128 字节。
按突变数划分的测试子集:
- test_1_mutations: 387 个样本，147,551 字节。
- test_2_mutations: 7,219 个样本，2,859,764 字节。
- test_3_mutations: 6,560 个样本，2,661,768 字节。
- test_4_mutations: 7,188 个样本，2,977,448 字节。
- test_5_mutations: 6,030 个样本，2,561,212 字节。
- test_6_mutations: 4,559 个样本，1,979,906 字节。
- test_7_mutations: 2,958 个样本，1,316,682 字节。
- test_8_mutations: 2,198 个样本，999,084 字节。
- test_9_mutations: 1,039 个样本，477,601 字节。
- test_10_mutations: 2,449 个样本，1,149,007 字节。
- test_11_mutations: 2,553 个样本，1,221,021 字节。
- test_12_mutations: 1,293 个样本，629,482 字节。
- test_13_mutations: 310 个样本，154,841 字节。
- test_gt_14_mutations: 674 个样本，359,766 字节。

配置: 3-vs-rest

训练集 (train): 2,880 个样本，1,129,231 字节。
验证集 (validation): 320 个样本，125,493 字节。
测试集 (test): 45,417 个样本，19,495,128 字节。
按突变数划分的测试子集 (样本数与字节数与 2-vs-rest 配置中对应子集相同):
- test_1_mutations: 387 个样本，147,551 字节。
- test_2_mutations: 7,219 个样本，2,859,764 字节。
- test_3_mutations: 6,560 个样本，2,661,768 字节。
- test_4_mutations: 7,188 个样本，2,977,448 字节。
- test_5_mutations: 6,030 个样本，2,561,212 字节。
- test_6_mutations: 4,559 个样本，1,979,906 字节。
- test_7_mutations: 2,958 个样本，1,316,682 字节。
- test_8_mutations: 2,198 个样本，999,084 字节。
- test_9_mutations: 1,039 个样本，477,601 字节。
- test_10_mutations: 2,449 个样本，1,149,007 字节。
- test_11_mutations: 2,553 个样本，1,221,021 字节。
- test_12_mutations: 1,293 个样本，629,482 字节。
- test_13_mutations: 310 个样本，154,841 字节。
- test_gt_14_mutations: 674 个样本，359,766 字节。

文件结构

数据文件根据配置和划分进行组织，路径模式如下：

2-vs-rest/[split_name]-*
3-vs-rest/[split_name]-* 其中 [split_name] 对应上述划分名称。

搜集汇总

数据集介绍

构建方式

在蛋白质工程领域，数据集的构建往往依赖于深度突变扫描技术。nd_strict_flip_ranking_split_mut_vs_des_subset3200数据集通过系统性地引入氨基酸突变，并基于严格的筛选标准，将突变序列与野生型序列进行对比分析。该数据集以两个独立配置（2-vs-rest和3-vs-rest）组织，每个配置均包含训练集、验证集及多个测试子集，这些子集根据突变数量精细划分，从而全面覆盖从单点到多重突变的各类情形。数据收集过程注重序列的编辑距离和功能活性测量，确保了样本的多样性和生物学相关性。

特点

该数据集的一个显著特征在于其多层次的结构设计，不仅提供了标准的训练、验证和测试划分，还额外细化了基于突变数量的测试子集，如test_1_mutations至test_gt_14_mutations，这为研究突变复杂度对蛋白质功能的影响提供了细致的数据支持。每个样本均包含序列标识、突变信息、编辑距离、活性水平及功能状态等丰富特征，使得数据集能够支持从序列分析到功能预测的多种任务。这种结构化的特征组织，有助于模型在泛化能力和特异性评估上取得平衡。

使用方法

使用该数据集时，研究人员可根据具体任务选择相应的配置，例如2-vs-rest或3-vs-rest，以进行二分类或多分类实验。数据集的标准划分便于直接应用于机器学习模型的训练与验证，而按突变数量细分的测试子集则允许对模型在不同突变复杂度下的性能进行深入评估。通过加载HuggingFace平台提供的文件路径，用户可以便捷地访问各数据子集，并利用序列、活性等特征构建预测模型，从而推动蛋白质设计与功能优化领域的研究进展。

背景与挑战

背景概述

在蛋白质工程与计算生物学领域，定向进化与序列功能预测是核心研究议题。nd_strict_flip_ranking_split_mut_vs_des_subset3200数据集应运而生，旨在系统评估突变序列与野生型序列在功能活性上的对比关系。该数据集由相关研究机构构建，聚焦于蛋白质序列的突变分析，通过量化编辑距离、活性水平及功能状态等特征，为机器学习模型提供结构化基准。其设计深化了对蛋白质序列-功能映射的理解，推动了生物信息学中预测模型的发展，对药物设计与酶工程具有重要参考价值。

当前挑战

该数据集致力于解决蛋白质序列功能预测中的关键挑战，即准确区分功能性突变与非功能性突变，并评估突变数量对活性的影响。构建过程中面临多重困难：序列数据的质量控制需确保突变标注的精确性与一致性；活性测量的实验变异可能引入噪声；数据不平衡问题突出，不同突变数量的样本分布差异显著，这要求模型具备处理长尾分布的能力。此外，编辑距离的计算与功能关联的复杂性增加了数据整合的难度。

常用场景

经典使用场景

在蛋白质工程领域，序列功能预测是核心挑战之一，该数据集通过提供大量突变序列及其活性数据，为机器学习模型训练提供了坚实基础。其经典使用场景在于构建分类或回归模型，以预测特定突变对蛋白质功能的影响，例如区分功能性与非功能性变体。研究人员利用该数据集中的序列、突变数量和活性水平等特征，开发出能够准确评估突变效应的算法，从而加速蛋白质设计与优化进程。

实际应用

在实际应用中，该数据集被广泛用于指导蛋白质药物的开发与优化，例如抗体工程或酶改造项目。通过基于数据训练的模型，生物技术公司可以快速筛选出具有高活性的突变体，减少实验试错成本。此外，它还能辅助设计新型生物催化剂或治疗性蛋白质，提升工业生产效率与医疗效果，体现了从数据到实际生物产品的转化价值。

衍生相关工作

围绕该数据集，衍生出多项经典研究工作，包括基于深度学习的突变效应预测模型，如卷积神经网络或Transformer架构的应用。这些工作不仅提升了预测精度，还扩展了模型的可解释性，例如通过注意力机制揭示关键突变位点。同时，一些研究利用该数据集进行迁移学习或生成模型训练，推动了蛋白质序列生成与优化领域的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集