SaProtHub/Dataset-Stability-TAPE
收藏Hugging Face2025-02-04 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/SaProtHub/Dataset-Stability-TAPE
下载链接
链接失效反馈官方服务:
资源简介:
稳定性景观预测是一个回归任务,其中每个输入的蛋白质x被映射到一个标签y∈R,该标签用于衡量蛋白质x在超过浓度阈值(作为内在稳定性的代理)时保持其折叠的最极端条件。数据集来源于论文Evaluating Protein Transfer Learning with TAPE,并遵循了原始的数据划分,包括训练集53614个样本,验证集2512个样本,测试集12851个样本。数据以LMDB格式组织,每个样本包含结构感知序列和序列的适应性标签。
稳定性景观预测是一个回归任务,其中每个输入的蛋白质x被映射到一个标签y∈R,该标签用于衡量蛋白质x在超过浓度阈值(作为内在稳定性的代理)时保持其折叠的最极端条件。数据集来源于论文Evaluating Protein Transfer Learning with TAPE,并遵循了原始的数据划分,包括训练集53614个样本,验证集2512个样本,测试集12851个样本。数据以LMDB格式组织,每个样本包含结构感知序列和序列的适应性标签。
提供机构:
SaProtHub
原始信息汇总
数据集概述
数据集名称
Stability Landscape Prediction
数据集描述
这是一个回归任务数据集,旨在预测蛋白质在极端环境下的稳定性。每个输入的蛋白质序列 x 被映射到一个实数标签 y,该标签衡量蛋白质 x 在超过一定浓度阈值时维持其折叠结构的能力(作为内在稳定性的代理)。
数据集分割
- 训练集: 53614
- 验证集: 2512
- 测试集: 12851
数据格式
数据集采用LMDB格式组织,数据库架构包括:
- length: 样本数量
- 0:
- seq: 结构感知序列
- fitness: 序列的适应性标签
- 1:
- ...



