VLP stoichiometry dataset
收藏StoicIML 数据集概述
数据集简介
- 数据集名称:StoicIML
- 数据集用途:用于分类病毒样颗粒(VLP)组装中蛋白质的化学计量学
- 数据集特点:基于线性机器学习模型的解释性数据驱动流程
数据集内容
- 数据集组成:包含200个蛋白质序列,这些序列组装成60-mer或180-mer的VLPs
- 数据来源:RCSB PDB
使用要求
- 安装需求:
- 安装
requirements.txt中列出的包 - 安装特征选择仓库
- 安装
结果复现
- 配置文件:
- 基本配置在
configs/configs.py - 主要实验配置在
configs/main_exp/VLP_200.yaml - 删除研究配置在
configs/study1_truncate/*.yaml和configs/study2_position_selection/*.yaml
- 基本配置在
- 执行命令:
- 主要实验:
chmod +x ./shell_scripts/main_experiments.sh,然后./shell_scripts/main_experiments.sh - 删除研究:
chmod +x ./shell_scripts/ablation_study.sh,然后./shell_scripts/ablation_study.sh
- 主要实验:
引用信息
@misc{zhang2025classifyingstoichiometryviruslikeparticles, title={Classifying the Stoichiometry of Virus-like Particles with Interpretable Machine Learning}, author={Jiayang Zhang and Xianyuan Liu and Wei Wu and Sina Tabakhi and Wenrui Fan and Shuo Zhou and Kang Lan Tee and Tuck Seng Wong and Haiping Lu}, year={2025}, eprint={2502.12049}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2502.12049}, }
参考文献
[1] Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE. The protein data bank. Nucleic acids research. 2000 Jan 1;28(1):235-42. [2] Li J, Cheng K, Wang S, Morstatter F, Trevino RP, Tang J, Liu H. Feature selection: A data perspective. ACM computing surveys (CSUR). 2017 Dec 6;50(6):1-45.

- 1Classifying the Stoichiometry of Virus-like Particles with Interpretable Machine Learning英国谢菲尔德大学 · 2025年



