thomas-2018-spark-wt

Hugging Face2025-03-27 更新2025-03-28 收录

下载链接：

https://huggingface.co/datasets/scbirlab/thomas-2018-spark-wt

下载链接

链接失效反馈

官方服务：

资源简介：

SPARK数据集：包含人类curated和标准化的最小抑菌浓度（MICs），针对野生型积累表型的细菌物种，可用于抗生素药物发现的化学模型开发。

创建时间：

2025-03-26

搜集汇总

数据集介绍

构建方式

在抗生素研究领域，thomas-2018-spark-wt数据集的构建体现了严谨的科学方法论。研究团队通过schemist化学数据处理工具，对原始SPARK数据库进行了系统化清洗与标准化处理，保留了野生型积累表型细菌的测量数据。采用Murcko骨架分割算法，将每个物种超过1000条目的数据按70:15:15比例划分为训练集、验证集和测试集，同时计算了分子量、拓扑极性表面积等关键分子特征。

特点

该数据集在化学生物学领域具有显著特色，涵盖9种重要病原菌的标准化最小抑菌浓度(MIC)数据，包含20,451条大肠杆菌记录至1,254条肺炎链球菌记录不等的物种特异性子集。所有化合物均经过RDKit规范化处理，提供SMILES字符串、Murcko骨架等化学表征，以及经过不等式符号处理的pMIC值，为抗生素发现研究提供了多维度的分子特征。

使用方法

针对抗生素发现的研究需求，该数据集支持多种应用场景。研究者可通过HuggingFace平台直接加载完整数据集或特定病原菌子集，利用预划分的训练-验证-测试集开发QSAR预测模型。数据集提供的拓扑极性表面积、分子量等特征可直接用于机器学习特征工程，而规范化的SMILES字符串则便于进行分子生成研究。使用时应遵循CC-by-nc-4.0许可协议，并引用原始文献。

背景与挑战

背景概述

SPARK数据集由Joe Thomas、Marc Navre、Aileen Rubio和Allan Coukell等研究人员于2018年创建，旨在为抗生素药物发现提供一个高质量的标准化最小抑菌浓度（MIC）数据库。该数据集聚焦于化学与生物学交叉领域，特别关注野生型积累表型的细菌，涵盖了包括大肠杆菌、金黄色葡萄球菌等多种病原微生物。通过整合人类整理的实验数据，并采用SMILES字符串标准化处理，该数据集为抗生素研发提供了重要的计算化学基础，显著促进了计算机辅助药物设计领域的发展。

当前挑战

SPARK数据集面临的核心挑战在于如何准确处理原始MIC数据中的不等式符号（如'>'或'<'），这些符号在转换为数值型数据时需要复杂的逻辑转换。构建过程中，研究人员需解决不同实验室测量方法导致的异质性数据整合问题，以及Murcko骨架分割时保持化学结构代表性的技术难题。此外，数据集仅包含野生型菌株数据，如何扩展至耐药菌株的表征仍是领域内待突破的关键问题。

常用场景

经典使用场景

在抗生素药物发现领域，SPARK数据集为研究人员提供了一个标准化的最小抑菌浓度（MIC）数据库。该数据集通过SMILES字符串和Murcko骨架分割，为机器学习模型训练提供了高质量的化学结构数据。经典使用场景包括预测化合物对特定病原体的抗菌活性，以及优化抗生素分子的化学结构。

衍生相关工作

基于SPARK数据集，多项经典研究工作得以开展。例如，利用该数据集训练的深度神经网络模型成功预测了新型抗生素的活性谱。此外，该数据集还被用于开发化学信息学工具，如分子描述符计算和骨架分析算法，进一步推动了计算药物发现领域的发展。

数据集最近研究