five

Dataset-GAL4_YEAST

收藏
Hugging Face2025-06-08 更新2025-06-09 收录
下载链接:
https://huggingface.co/datasets/SeprotHub/Dataset-GAL4_YEAST
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含蛋白质GAL4_YEAST的单点突变及其对应的深度突变扫描实验突变效应分数。数据集中的蛋白质以氨基酸序列的格式表示。数据集被划分为训练集、验证集和测试集,分别包含941、131和121个样本。数据集来源于一篇Nature杂志上的论文。
创建时间:
2025-06-08
搜集汇总
数据集介绍
main_image_url
构建方式
在蛋白质功能预测领域,GAL4_YEAST数据集通过深度突变扫描技术系统构建。研究人员对酵母转录因子GAL4进行单点突变,利用高通量实验定量测量每个突变体的功能效应值,最终生成包含1193个突变样本的精准数据集。
特点
该数据集以氨基酸序列为基础单元,标注范围覆盖负无穷至正无穷的连续功能效应值,精确反映突变对蛋白质功能的定量影响。其训练集、验证集和测试集采用941:131:121的科学划分比例,为机器学习模型提供可靠的评估基准。
使用方法
研究者可加载CSV格式的序列突变数据与连续型标签,通过监督学习框架训练预测模型。验证集用于超参数优化,测试集则评估模型对未知突变的泛化能力,适用于蛋白质工程与功能预测研究。
背景与挑战
背景概述
蛋白质功能预测领域在2018年迎来重要突破,由Nature Methods发表的深度突变扫描技术为系统解析蛋白质突变效应提供了新范式。GAL4_YEAST数据集作为该研究的核心数据载体,由国际顶尖科研团队构建,聚焦酿酒酵母GAL4转录因子的单点突变功能效应量化问题。该数据集通过高通量实验测量了每个突变体的功能评分,为机器学习模型理解蛋白质序列-功能关系提供了精准的基准数据,显著推动了计算生物学领域的发展。
当前挑战
该数据集致力于解决蛋白质突变效应预测这一核心挑战,其难点在于突变效应的连续数值预测需克服生物系统复杂性和实验噪声干扰。构建过程中面临多重技术壁垒:深度突变扫描实验需要设计覆盖所有可能单点突变的寡核苷酸库,并保证突变体表达的均一性;功能评分标准化需消除系统误差,且无限范围的数值标注要求精确的归一化处理;同时需确保突变位点的空间分布代表性以反映蛋白质全域功能景观。
常用场景
经典使用场景
在计算生物学领域,GAL4_YEAST数据集广泛应用于蛋白质功能预测研究。该数据集通过深度突变扫描实验获得的单点突变效应评分,为研究人员提供了评估酵母转录因子GAL4突变体功能变化的可靠基准。典型应用场景包括训练机器学习模型预测突变对蛋白质稳定性和功能的影响,从而加速蛋白质工程设计。
实际应用
在实际应用层面,GAL4_YEAST数据集为工业酶设计和治疗性蛋白质开发提供了关键技术支持。生物技术公司利用该数据集训练的预测模型,能够快速筛选具有增强功能的蛋白质变体,显著降低实验筛选成本。在药物研发领域,该数据有助于识别影响蛋白质稳定性的有害突变,为靶向药物设计提供重要参考依据。
衍生相关工作
该数据集催生了多项重要研究工作,特别是基于深度学习的蛋白质突变效应预测模型的发展。例如采用变分自编码器和生成对抗网络的深度生成模型,能够准确捕捉突变序列与功能之间的关系。这些衍生工作不仅扩展了计算蛋白质设计的方法论体系,还为开发新型蛋白质功能预测工具奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作