five

ProteinGym_DMS

收藏
Hugging Face2025-08-21 更新2025-08-23 收录
下载链接:
https://huggingface.co/datasets/GleghornLab/ProteinGym_DMS
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了蛋白质序列的突变信息,包括突变序列、目标序列、突变类型等。数据集中的特征包括DMS_id(样本ID)、DMS_score(某种得分)、DMS_score_bin(得分的二分类)、mutated_seq(突变序列)、target_seq(目标序列)、mutant(突变类型)、num_mutations(突变数量)、is_indel(是否为插入或缺失突变)、fold_random_5_indels(某种折叠指标)、fold_rand_multiples(另一种折叠指标)、fold_random_5(折叠指标)、fold_modulo_5(折叠指标)、fold_contiguous_5(折叠指标)。数据集分为训练集,共有2,752,974个示例,大小为2.6GB。

This dataset contains mutation-related information for protein sequences, including mutated sequences, target sequences, mutation types, and other relevant contents. The features included in the dataset are DMS_id (sample ID), DMS_score (a type of scoring value), DMS_score_bin (binary classification of the score), mutated_seq (mutated sequence), target_seq (target sequence), mutant (mutation type), num_mutations (number of mutations), is_indel (whether the mutation is an insertion-deletion (indel) variant), fold_random_5_indels (a folding metric), fold_rand_multiples (another folding metric), fold_random_5 (folding metric), fold_modulo_5 (folding metric), and fold_contiguous_5 (folding metric). The dataset is split into a training set, which contains 2,752,974 examples and has a total size of 2.6 GB.
提供机构:
Gleghorn Lab
创建时间:
2025-08-08
搜集汇总
数据集介绍
main_image_url
构建方式
在蛋白质工程领域,ProteinGym_DMS数据集通过系统整合深度突变扫描实验数据构建而成。其核心流程涉及收集多个蛋白质的突变体序列及其功能评分,采用统一标准对原始实验数据进行清洗与标注,确保数据的一致性与可比性。每个样本包含突变序列、野生型序列及定量功能指标,并通过多维度交叉验证划分训练集与测试集,为模型评估提供可靠基础。
特点
该数据集涵盖超过275万个蛋白质突变样本,包含点突变与插入缺失变异类型,并提供连续与离散形式的功能评分标签。其特色在于引入多种预定义数据划分策略,如随机分割、模数分割和连续块分割,支持稳健的机器学习模型验证。数据字段涵盖突变标识、序列信息及结构特征,为蛋白质功能预测研究提供多角度分析维度。
使用方法
研究者可加载数据集后根据特定划分策略提取训练与验证样本,利用突变序列与功能评分构建预测模型。典型应用包括训练蛋白质适应性预测网络或评估突变功能效应分类器。通过整合序列编码与评分回归任务,该数据集适用于监督学习与迁移学习框架,推动蛋白质设计算法的跨蛋白泛化能力研究。
背景与挑战
背景概述
蛋白质工程领域长期致力于通过定向进化与理性设计改良蛋白质功能,ProteinGym_DMS数据集由斯坦福大学等研究机构于2023年推出,聚焦于深度突变扫描技术产生的大规模变异效应数据。该数据集系统整合了超过275万个人工设计的蛋白质序列突变及其功能评分,为核心研究问题——蛋白质序列与功能关系的机器学习建模提供了标准化基准,显著推动了计算生物学中蛋白质设计范式的变革。
当前挑战
该数据集主要应对蛋白质功能预测中突变效应量化与通用性建模的挑战,需解决高维序列空间中的非线性关系捕捉以及非同义突变与插入缺失突变的多尺度效应评估。构建过程中面临实验数据异构性整合难题,包括不同深度突变扫描平台的功能评分标准化、序列突变位点的空间结构对齐,以及避免训练集与测试集间序列同源性泄漏的数据划分策略设计。
常用场景
经典使用场景
在蛋白质工程领域,ProteinGym_DMS数据集被广泛用于深度突变扫描(DMS)实验的数据分析与模型训练。研究人员通过该数据集系统评估单点突变及插入缺失变异对蛋白质功能的影响,为理解蛋白质序列与功能关系提供了大规模标准化数据支撑。其典型应用场景包括训练监督学习模型预测突变体稳定性、结合亲和力等生物物理特性,为蛋白质设计提供可靠的计算依据。
解决学术问题
该数据集有效解决了蛋白质功能预测中数据稀缺与标准化不足的核心问题。通过整合多源深度突变扫描数据,它使研究人员能够系统评估突变对蛋白质功能的影响机制,推动了蛋白质折叠、稳定性及功能演化等基础问题的量化研究。其标准化格式显著提升了不同研究结果的可比性,为建立普适性蛋白质功能预测模型奠定了数据基础。
衍生相关工作
基于ProteinGym_DMS数据集衍生了多项蛋白质预测领域的突破性工作。其中包含使用Transformer架构的蛋白质语言模型如ProGen2,以及结合物理知识的神经网络模型如AlphaFold-Multimer。这些模型通过在该数据集上的基准测试不断优化,推动了蛋白质功能预测精度的大幅提升,并催生了如蛋白质设计自动化平台等创新工具的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作