five

MicroMass

收藏
arXiv2015-06-24 更新2024-06-21 收录
下载链接:
http://archive.ics.uci.edu/ml/datasets/MicroMass
下载链接
链接失效反馈
官方服务:
资源简介:
MicroMass数据集是由生物梅里埃生物信息学研究部创建的,用于微生物鉴别的质谱数据集。该数据集包含20种革兰氏阳性和阴性细菌的571个质谱数据,覆盖9个属。数据来源于商业化的VITEK-MS系统,并通过UCI机器学习仓库公开。数据集的创建过程遵循临床常规流程,首先在琼脂板上培养微生物,然后选取菌落,点在MALDI玻片上并获取质谱。MicroMass数据集主要应用于微生物鉴别,特别是在感染病诊断和工业质量控制领域,旨在通过质谱技术快速准确地识别微生物种类。

The MicroMass dataset is a mass spectrometry dataset for microbial identification, created by the Bioinformatics Research Department of bioMérieux. It contains 571 mass spectrometry profiles of 20 species of Gram-positive and Gram-negative bacteria, spanning 9 genera. The data was sourced from the commercial VITEK-MS system and made publicly available via the UCI Machine Learning Repository. The dataset was constructed following standard clinical workflows: microorganisms are first cultured on agar plates, then colonies are picked, spotted onto MALDI slides, and their mass spectra are acquired. The MicroMass dataset is primarily applied to microbial identification, particularly in the fields of infectious disease diagnosis and industrial quality control, aiming to rapidly and accurately identify microbial species via mass spectrometry technology.
提供机构:
生物梅里埃生物信息学研究部
创建时间:
2015-06-24
搜集汇总
数据集介绍
main_image_url
构建方式
在微生物鉴定领域,MicroMass数据集的构建依托于基质辅助激光解吸电离飞行时间质谱技术。该数据集从商业VITEK-MS系统的参考数据库中提取,涵盖了20种革兰氏阳性与阴性细菌物种,涉及9个属。数据收集过程遵循临床常规流程:细菌在琼脂平板上培养24至48小时后,挑取菌落点样于MALDI靶板上,获取质谱图谱。最终数据集包含213个菌株的571个质谱,每个物种由7至20个菌株代表,每个菌株生成11至60个质谱。质谱数据经过预处理,转化为维度为1300的峰值列表表示,以捕捉物种特有的蛋白指纹。
特点
MicroMass数据集的核心特点在于其层次化结构,该结构融合了表型与进化特征。数据集的树状层次以革兰氏染色性质为顶层划分,下层则对应属与物种的分类学等级。这种混合层次定义反映了临床微生物学中基于表型测试与系统发育关系的鉴定逻辑。数据集特别包含了多对难以区分的物种群,如Bacillus cereus与Bacillus thuringiensis,以及Escherichia coli与Shigella属物种,这些群组在生物学上高度接近,为机器学习方法提供了挑战性的分类场景。数据集的质谱表示通过峰值列表实现,每个谱图通常包含50至150个峰值,确保了特征的高维性与特异性。
使用方法
MicroMass数据集主要用于评估结构化机器学习方法在微生物鉴定中的性能。研究采用留一菌株交叉验证策略,将同一菌株的所有质谱分配至同一折叠,以模拟临床环境中菌株间的生物变异。评估指标包括嵌套准确率与树损失分布,后者量化了错误分类的严重性,例如属内错误、同革兰氏错误与跨革兰氏错误。数据集支持多种分类方法的比较,包括支持向量机、随机森林及基于相似性的方法。结构化方法如TreeLoss与Structured SVM利用层次树中的路径长度定义损失函数,旨在减少远缘物种间的误判。通过分析常见错误分类模式,数据集有助于揭示质谱技术在区分近缘物种方面的局限性。
背景与挑战
背景概述
MicroMass数据集于2014年由生物梅里埃公司及法国多所研究机构联合创建,旨在为微生物鉴定领域提供标准化的质谱数据基准。该数据集聚焦于利用基质辅助激光解吸电离飞行时间质谱技术,解决临床与工业环境中微生物物种的自动识别问题。其核心研究在于探索如何将微生物的进化与表型层次结构作为先验知识,融入机器学习模型,以提升分类精度。该数据集的发布推动了结构化机器学习方法在微生物组学中的应用,为后续研究提供了重要的数据基础与评估框架。
当前挑战
MicroMass数据集面临的挑战主要体现在两个方面:在领域问题上,微生物鉴定需处理高维度、少样本的质谱数据,且物种间存在高度相似性(如芽孢杆菌属内物种),导致分类模型易产生属内误判;在构建过程中,数据采集受限于菌株培养与质谱测量的技术变异,需平衡物种覆盖范围与样本数量,同时定义融合表型与进化特征的混合层次结构亦具复杂性,这为后续模型的有效训练与评估增添了难度。
常用场景
经典使用场景
在微生物学领域,特别是临床诊断与工业质量控制中,微生物的快速准确鉴定至关重要。MicroMass数据集作为基于MALDI-TOF质谱数据的基准资源,其经典使用场景在于评估和比较各类机器学习算法在微生物物种分类任务中的性能。该数据集通过整合20种细菌物种的质谱指纹及其层次化分类结构,为研究者提供了验证结构化学习方法有效性的实验平台,从而推动自动鉴定系统的优化与创新。
解决学术问题
MicroMass数据集主要针对微生物鉴定中多类别分类的高维度、不平衡数据挑战,以及如何有效利用物种间的层次关系提升分类精度。该数据集通过引入包含表型与进化特征的树状结构,使得研究者能够探索结构化机器学习方法(如代价敏感SVM、层次SVM)在整合先验知识方面的潜力。其意义在于揭示了在现有技术已达到较高准确度的背景下,结构化方法并未显著超越传统“扁平”分类器,这促使学术界重新思考层次信息在相近物种区分中的实际效用与局限性。
衍生相关工作
围绕MicroMass数据集,一系列经典研究工作得以衍生,主要集中在结构化机器学习方法的拓展与评估。例如,基于支持向量机的多类别分类策略(如SVM-OVA、SVM-OVO)与层次化方法(如Cascade-of-Classifiers、Dendrogram-SVMs)被系统比较。此外,随机森林与基于相似性的方法(如最近邻分类)也在该数据集上得到验证。这些工作不仅深化了对质谱数据分类特性的理解,也为后续研究如依赖最大化聚类、结构化正则化方法在微生物鉴定中的应用奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作