silkome-full-idv-grouped
收藏Hugging Face2026-05-30 更新2026-05-31 收录
下载链接:
https://huggingface.co/datasets/lamm-mit/silkome-full-idv-grouped
下载链接
链接失效反馈官方服务:
资源简介:
Silkome Full Idv Grouped 是一个用于从丝蛋白组(Silkome)序列预测蜘蛛丝牵引丝纤维机械性能的分组数据集。该数据集由原始silkome-full数据集重构而来,核心创新在于将共享相同测量纤维/属性标识符(idv)的所有可用丝蛋白序列行聚合为单个样本,形成序列集合 -> 机械性能的映射关系,旨在服务于基于ESMC等嵌入模型和后续集合级聚合模型的预测流程。数据集包含270个唯一的idv分组样本,总计代表3563条蛋白质序列行。每个分组样本包含一个idv对应的所有丝蛋白氨基酸序列列表(sequences)、每条序列的类别标签(如MaSp1, MaSp2等,共18个类别)、序列长度以及基于类别的组成特征。目标变量是纤维级的四个关键机械性能:韧性(toughness)、杨氏模量(E)、强度(strength)和应变(strain),同时提供了这些性能的标准差及归一化版本。数据还附带了丰富的元数据,包括物种分类学信息(科、属、种)、性别、NCBI标识符等。数据集已预先划分为训练集(230个样本)和测试集(40个样本),采用基于property_tuple_key的确定性分组分割方法,确保训练集和测试集在idv和四元组属性上均无重叠,以进行更严谨、防泄漏的模型评估。该数据集适用于纤维级机械性能预测、序列嵌入与集合聚合模型基准测试、丝蛋白类别组成分析以及序列-性能关系研究等任务。需要注意的是,目标性能是纤维水平的测量值,并非单个蛋白质的直接功能标签,纤维力学还受多种非序列因素影响。
提供机构:
LAMM: MIT Laboratory for Atomistic and Molecular Mechanics
创建时间:
2026-05-30



