VLP stoichiometry dataset

Name: VLP stoichiometry dataset
Creator: 英国谢菲尔德大学
Published: 2025-02-18 01:16:42
License: 暂无描述

arXiv2025-02-18 更新2025-02-19 收录

下载链接：

https://github.com/Shef-AIRE/StoicIML

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由英国谢菲尔德大学的研究团队从RCSB蛋白质数据银行（PDB）中编译而成，包含200个蛋白质序列，旨在用于病毒样颗粒（VLP）的 stoichiometry 分类研究。数据集中的蛋白质序列经过精心筛选，确保了数据的质量和平衡性，适用于机器学习模型训练和评估。数据集的创建是为了解决疫苗开发中的 stoichiometry 问题，从而加速疫苗的设计和开发。

This dataset was compiled by a research team from the University of Sheffield, UK, from the RCSB Protein Data Bank (PDB). It contains 200 protein sequences and is designed for stoichiometry classification research on virus-like particles (VLPs). The protein sequences in the dataset have been carefully screened to ensure data quality and balance, making it suitable for training and evaluating machine learning models. This dataset was developed to address stoichiometry-related issues in vaccine development, thereby accelerating vaccine design and development.

提供机构：

英国谢菲尔德大学

创建时间：

2025-02-18

原始信息汇总

StoicIML 数据集概述

数据集简介

数据集名称：StoicIML
数据集用途：用于分类病毒样颗粒（VLP）组装中蛋白质的化学计量学
数据集特点：基于线性机器学习模型的解释性数据驱动流程

数据集内容

数据集组成：包含200个蛋白质序列，这些序列组装成60-mer或180-mer的VLPs
数据来源：RCSB PDB

使用要求

安装需求：
- 安装requirements.txt中列出的包
- 安装特征选择仓库

结果复现

配置文件：
- 基本配置在configs/configs.py
- 主要实验配置在configs/main_exp/VLP_200.yaml
- 删除研究配置在configs/study1_truncate/*.yaml和configs/study2_position_selection/*.yaml
执行命令：
- 主要实验：chmod +x ./shell_scripts/main_experiments.sh，然后./shell_scripts/main_experiments.sh
- 删除研究：chmod +x ./shell_scripts/ablation_study.sh，然后./shell_scripts/ablation_study.sh

引用信息

@misc{zhang2025classifyingstoichiometryviruslikeparticles, title={Classifying the Stoichiometry of Virus-like Particles with Interpretable Machine Learning}, author={Jiayang Zhang and Xianyuan Liu and Wei Wu and Sina Tabakhi and Wenrui Fan and Shuo Zhou and Kang Lan Tee and Tuck Seng Wong and Haiping Lu}, year={2025}, eprint={2502.12049}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2502.12049}, }

参考文献

[1] Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE. The protein data bank. Nucleic acids research. 2000 Jan 1;28(1):235-42. [2] Li J, Cheng K, Wang S, Morstatter F, Trevino RP, Tang J, Liu H. Feature selection: A data perspective. ACM computing surveys (CSUR). 2017 Dec 6;50(6):1-45.

搜集汇总

数据集介绍

构建方式

VLP stoichiometry dataset的构建方式涉及从RCSB PDB数据库中收集能够形成60-mer或180-mer VLP的蛋白质序列。通过PDB的高级搜索功能，根据蛋白质实例数量和对称类型筛选出符合条件的蛋白质序列，并手动去除重复序列以创建一个平衡的数据集。数据集最终包含200个蛋白质序列，其中每种价态各有100个序列，以确保模型性能的准确评估并防止过拟合。

特点

VLP stoichiometry dataset的特点在于其平衡性和多样性，涵盖了形成60-mer和180-mer VLP的蛋白质序列。该数据集的构建旨在为机器学习模型提供充足且具有代表性的训练数据，以便能够准确预测蛋白质的价态。此外，数据集还考虑了蛋白质序列的长度分布，以反映真实世界中的多样性。

使用方法

使用VLP stoichiometry dataset的方法涉及将蛋白质序列编码为数值表示，以便机器学习模型可以对其进行分类。该数据集支持多种编码方法，包括整数标签编码和独热编码，以及基于化学性质的氨基酸簇编码。用户可以根据需要选择不同的编码方法来优化模型的性能和可解释性。此外，数据集还支持多种线性机器学习模型，如逻辑回归、线性支持向量机和岭分类器，以便用户可以根据自己的需求选择合适的模型。

背景与挑战

背景概述

病毒样颗粒（VLPs）因其在疫苗开发中的免疫触发特性而具有宝贵的价值。了解它们的计量学，即形成VLP的蛋白亚基数量，对于疫苗优化至关重要。然而，目前确定计量学的实验方法既耗时又需要高度纯化的蛋白。为了有效地对蛋白的计量学进行分类，研究人员创建了新的数据集，并提出了一种可解释的数据驱动流程，利用线性机器学习模型。该研究还探讨了特征编码对模型性能和可解释性的影响，以及识别影响分类的关键蛋白序列特征的方法。该流程的评估表明，它能够在揭示可能影响VLP组装的蛋白特征的同时对计量学进行分类。该工作的数据和代码在https://github.com/Shef-AIRE/StoicIML上公开发布。该研究的临床意义在于，准确地对VLP计量学进行分类可以简化疫苗设计，并加速针对疾病疫苗的开发。

当前挑战

该数据集和相关研究面临的挑战包括：1) 目前确定VLP计量学的实验方法耗时且需要高度纯化的蛋白，这对于疫苗开发来说是一个重大瓶颈；2) 在使用机器学习技术对蛋白计量学进行分类时，需要构建一个高质量、多样化的数据集，以便更好地验证和改进模型；3) 为了提高模型的预测性能和可解释性，需要探索更有效的特征编码方法和模型训练策略；4) 需要进一步研究和解释影响VLP组装的关键蛋白序列特征，以便为疫苗设计和优化提供更深入的生物学见解。

常用场景

经典使用场景

VLP stoichiometry dataset 是一个专门用于分类病毒样颗粒（VLPs）的计量数据集。该数据集包含从 RCSB 蛋白质数据银行（PDB）中编译的蛋白质序列，这些序列能够组装成 60-mer 或 180-mer 的 VLPs。该数据集的主要用途是利用可解释的机器学习模型对蛋白质进行计量分类，以优化疫苗设计。

衍生相关工作

VLP stoichiometry dataset 衍生了一些相关的经典工作，例如 AlphaFold 系列，用于蛋白质结构预测，以及 DeepGo 和 DPFunc，用于蛋白质功能预测。这些工作利用了机器学习技术，为蛋白质科学的研究提供了新的工具和方法。

数据集最近研究