Uniclust30 + PDB
收藏ISM 数据集概述
数据集简介
ISM 是一个基于 ESM2 模型的扩展,通过引入结构化表示来增强蛋白质序列模型的性能。该数据集包含多个预训练模型,可用于替换 ESM2 模型。
数据集下载
ISM 数据集包含多个模型版本,用户可以根据需求选择合适的模型进行下载。
| 名称 | 层数 | 参数数量 | 数据集 | 模型 URL |
|---|---|---|---|---|
| ISM-650M-UC30PDB | 33 | 650M | Uniclust30 + PDB | https://huggingface.co/jozhang97/ism_t33_650M_uc30pdb |
| ISM-650M-UC30 | 33 | 650M | Uniclust30 | https://huggingface.co/jozhang97/ism_t33_650M_uc30 |
| ISM-3B-UC30 | 36 | 3B | Uniclust30 | https://huggingface.co/jozhang97/ism_t36_3B_uc30 |
快速开始
用户可以通过以下命令下载并使用 ISM 模型:
bash
推荐方式
huggingface-cli download jozhang97/ism_t33_650M_uc30pdb --local-dir /path/to/save/ism
替代方式
git clone https://huggingface.co/jozhang97/ism_t33_650M_uc30pdb
结构化调优
ISM 模型从 ESM2 初始化,并在结构化标记上进行微调。用户可以下载结构化调优数据集进行训练。
数据集下载链接:https://huggingface.co/datasets/jozhang97/structure-tuning-uc30pdb
结构化基准评估
ISM 模型在二级结构和结合残基数据集上的性能可以通过以下命令进行重现和评估。
数据集路径:plm_eval/data
引用
如果用户在研究中使用了 ISM 数据集,请引用以下文献:
bibtex @article{ouyangzhang2024distilling, title={Distilling Structural Representations into Protein Sequence Models}, author={Ouyang-Zhang, Jeffrey and Gong, Chengyue and Zhao, Yue and Kr{"a}henb{"u}hl, Philipp and Klivans, Adam and Diaz, Daniel J}, journal={bioRxiv}, doi={10.1101/2024.11.08.622579}, year={2024}, publisher={Cold Spring Harbor Laboratory} }




