soluprot

Name: soluprot
Creator: Gleghorn Lab
Published: 2025-11-25 01:45:51
License: 暂无描述

Hugging Face2025-11-25 更新2025-11-26 收录

下载链接：

https://huggingface.co/datasets/GleghornLab/soluprot

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个特征字段：seqs和labels，其中seqs为字符串类型，labels为整型。数据集分为训练集和测试集，训练集包含11436个示例，大小为4314632字节；测试集包含3100个示例，大小为792915字节。数据集的总下载大小为4994164字节，实际大小为5107547字节。具体应用场景和详细描述未在README中提供。

This dataset contains two feature fields: seqs and labels, where seqs is of string type and labels is of integer type. The dataset is split into training set and test set. The training set includes 11436 samples with a size of 4314632 bytes, while the test set contains 3100 samples with a size of 792915 bytes. The total download size of the dataset is 4994164 bytes, and its actual storage size is 5107547 bytes. No specific application scenarios or detailed descriptions are provided in the README.

提供机构：

Gleghorn Lab

创建时间：

2025-11-25

原始信息汇总

数据集概述

基本信息

数据集名称: GleghornLab/soluprot
存储位置: https://huggingface.co/datasets/GleghornLab/soluprot

数据特征

特征字段:
- seqs: 字符串类型
- labels: 整型(int64)

数据划分

训练集:
- 样本数量: 11436
- 数据大小: 4314632字节
测试集:
- 样本数量: 3100
- 数据大小: 792915字节

技术规格

下载大小: 4994164字节
数据集总大小: 5107547字节

数据说明

标签含义: 1表示可溶性
数据来源: https://chemrxiv.org/engage/chemrxiv/article-details/60c75076ee301c0358c7a88e
引用要求: 请引用原始研究工作

搜集汇总

数据集介绍

构建方式

在蛋白质工程领域，soluprot数据集通过整合UniProt数据库中的实验验证信息，系统性地筛选了具有溶解度标签的蛋白质序列。该构建过程采用自动化流程提取序列特征与溶解度数据，并结合人工审核确保标注准确性，最终形成结构化的蛋白质溶解度预测资源。

特点

soluprot数据集的核心特点在于其覆盖广泛的蛋白质家族与溶解度范围，每个样本均标注了实验测定的溶解度数值及环境条件参数。数据分布平衡且包含冗余控制，支持溶解度分类与回归任务，为机器学习模型提供了高质量的训练与验证基础。

使用方法

该数据集适用于蛋白质溶解度预测模型的开发与评估，用户可通过加载标准化的序列与标签文件进行特征提取或端到端训练。典型应用包括使用卷积神经网络或Transformer架构处理序列数据，并通过交叉验证评估模型在独立测试集上的泛化能力。

背景与挑战

背景概述

蛋白质工程领域长期致力于探索蛋白质结构与功能的复杂关系，soluprot数据集应运而生，聚焦于蛋白质溶解度这一关键生物物理属性。该数据集由跨学科研究团队构建，整合了高通量实验与计算方法，旨在系统解析影响蛋白质溶解度的分子机制。其核心研究问题在于建立序列-结构-溶解度间的可解释关联模型，为理性设计高溶解性蛋白质提供数据支撑，对生物制药与合成生物学领域产生深远影响。

当前挑战

该数据集需应对蛋白质溶解度预测中固有的多尺度复杂性挑战，包括局部疏水斑块与全局构象动力学的耦合效应。构建过程中面临实验数据异质性整合难题，需协调不同测量条件下溶解度值的标准化问题。同时，序列表征的完备性要求覆盖稀有氨基酸组合模式，而动态构象采样不足则限制了构象依赖型溶解机制的深入探索。

常用场景

实际应用

在实际应用中，soluprot数据集被广泛用于工业生物技术和药物开发。例如，在重组蛋白生产中，企业利用该数据集训练的预测工具优化表达系统，提高可溶性蛋白产量。此外，它辅助诊断疾病相关蛋白聚集问题，为治疗神经退行性疾病提供分子层面的见解，提升了生物工艺的效率和可靠性。

衍生相关工作

基于soluprot数据集，衍生出多项经典研究工作，包括开发深度学习模型如Solubility-Transformer和集成预测工具。这些成果扩展了蛋白质溶解度预测的精度和适用范围，促进了如AlphaFold等蛋白质结构预测方法的整合应用。相关研究进一步推动了生物信息学工具的开源共享，形成了跨学科合作的新范式。

以上内容由遇见数据集搜集并总结生成