nd_random_sequences
收藏Hugging Face2026-03-31 更新2026-04-01 收录
下载链接:
https://huggingface.co/datasets/plmgen/nd_random_sequences
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两种不同的配置,主要关注基因序列和突变。第一种配置名为'1000_mutants_per_position',包含序列ID、突变数量、分割类型和序列等特征,训练集包含142,000个样本。第二种配置名为'1000_mutants_per_position_sampled_from_gt_wt_variants',除了上述特征外,还增加了目标活性和预测活性两个特征,训练集包含90,004个样本。该数据集适用于生物信息学或机器学习任务,特别是涉及序列分析的研究。
创建时间:
2026-03-30
原始信息汇总
数据集概述
基本信息
- 数据集名称: nd_random_sequences
- 托管平台: Hugging Face
- 数据集地址: https://huggingface.co/datasets/plmgen/nd_random_sequences
配置版本
数据集包含两个配置版本。
配置一:1000_mutants_per_position
- 训练集样本数量: 142,000
- 训练集大小: 98,632,959 字节
- 下载大小: 59,113,000 字节
- 数据集总大小: 98,632,959 字节
数据特征
sequence_id: 字符串类型,序列标识符。num_mutations: 整数类型,突变数量。split: 字符串类型,数据划分标识。sequence: 字符串类型,序列数据。
文件结构
- 训练集文件路径:
1000_mutants_per_position/train-*
配置二:1000_mutants_per_position_sampled_from_gt_wt_variants
- 训练集样本数量: 90,004
- 训练集大小: 51,239,818 字节
- 下载大小: 22,913,752 字节
- 数据集总大小: 51,239,818 字节
数据特征
sequence_id: 字符串类型,序列标识符。sequence: 字符串类型,序列数据。num_mutations: 整数类型,突变数量。target_activity: 浮点数类型,目标活性值。split: 字符串类型,数据划分标识。preds_activity: 浮点数类型,预测活性值。
文件结构
- 训练集文件路径:
1000_mutants_per_position_sampled_from_gt_wt_variants/train-*
数据内容摘要
- 两个配置均仅包含训练集划分。
- 配置二在配置一的基础上增加了活性相关的特征(
target_activity和preds_activity)。 - 所有数据特征均以文本或数值形式存储。
搜集汇总
数据集介绍

构建方式
在蛋白质工程领域,nd_random_sequences数据集通过系统化突变策略构建而成。该数据集包含两个主要配置:其一为每个位置生成1000个突变体的随机序列集合,其二则从已知野生型变体中采样并标注活性数据。构建过程涉及对原始蛋白质序列进行定点突变,生成大量变异序列,并记录每个序列的突变数量与标识信息,从而形成一个结构化的突变体库。
特点
该数据集的特点在于其规模化和多维度标注。它不仅提供了超过十万条蛋白质突变序列,还包含了突变数量、序列标识以及活性预测值等关键特征。特别是第二个配置整合了实验测定的目标活性数据与模型预测的活性值,为研究突变与功能关系提供了双重验证。这种设计使得数据集既能支持大规模序列分析,也能用于活性预测模型的训练与评估。
使用方法
使用该数据集时,研究人员可根据不同配置选择相应数据文件进行加载。对于序列生成任务,可调用1000_mutants_per_position配置获取突变序列及其基本信息;若需进行活性关联分析,则采用sampled_from_gt_wt_variants配置,利用其包含的实验活性与预测值开展模型训练或验证。数据集以标准分割格式组织,支持直接导入机器学习框架进行后续处理与分析。
背景与挑战
背景概述
在蛋白质工程与计算生物学领域,高通量突变体序列数据的构建对于理解蛋白质功能与进化机制至关重要。nd_random_sequences数据集由相关研究团队于近年开发,旨在系统性地探索蛋白质序列空间中突变组合与功能活性之间的复杂映射关系。该数据集通过生成大量随机突变序列,并整合实验测定的活性数据,为核心研究问题——即如何从序列变异中预测蛋白质功能表现——提供了大规模、标准化的基准资源。其构建不仅推动了机器学习模型在蛋白质设计中的应用,也为深入解析蛋白质结构与功能的关联性奠定了数据基础。
当前挑战
该数据集致力于应对蛋白质功能预测中的核心挑战,即如何在浩瀚的序列变异空间中准确建模突变与活性之间的非线性关系,这要求模型具备处理高维、稀疏且具有复杂依赖性的序列数据的能力。在构建过程中,研究人员面临多重困难:一方面,实验测定大量突变体的活性数据成本高昂且耗时,导致数据覆盖范围与质量受限;另一方面,从野生型变体中抽样生成突变序列时,需平衡序列多样性与生物学合理性,避免引入偏差或噪声,这增加了数据标注与校验的复杂性。
常用场景
经典使用场景
在蛋白质工程领域,nd_random_sequences数据集为探索突变序列的功能性提供了关键资源。该数据集通过系统性地生成大量随机突变序列,并标注其活性数据,为研究人员构建和验证机器学习模型奠定了数据基础。经典使用场景包括训练深度学习模型预测蛋白质突变后的活性变化,从而加速蛋白质定向进化过程,减少传统实验筛选的高成本与时间消耗。
实际应用
在实际应用中,nd_random_sequences数据集被广泛用于工业酶工程和生物制药开发。例如,在优化工业酶的热稳定性或催化效率时,基于该数据集训练的模型可以快速筛选出高活性突变体,指导实验验证。此外,在抗体工程中,它帮助预测突变对抗原结合能力的影响,加速治疗性抗体的设计流程,提升研发效率与成功率。
衍生相关工作
围绕nd_random_sequences数据集,衍生了一系列经典研究工作。这些工作主要集中在开发先进的序列活性预测模型,如基于Transformer的架构或图神经网络,以更准确地捕捉突变效应。同时,该数据集也促进了迁移学习和多任务学习方法的探索,使模型能够泛化到未见过的蛋白质家族,拓展了计算蛋白质设计的边界。
以上内容由遇见数据集搜集并总结生成



