Sub-visible particles dataset

Name: Sub-visible particles dataset
Creator: 根特大学
Published: 2025-08-08 13:15:02
License: 暂无描述

arXiv2025-08-08 更新2025-08-12 收录

下载链接：

https://zenodo.org/records/16757225

下载链接

链接失效反馈

官方服务：

资源简介：

本研究中使用的亚可见颗粒数据集由根特大学的研究团队创建，包含超过51万张图像，包括蛋白质颗粒、硅油滴和气泡等亚可见颗粒的图像。数据集的创建旨在解决蛋白质治疗药物中亚可见颗粒的准确检测和分类问题，以评估其安全性、有效性和稳定性。数据集通过流成像显微镜采集，并使用扩散模型生成补充数据，以解决数据不平衡的问题。

The subvisible particle dataset used in this study was created by a research team at Ghent University. It contains over 510,000 images capturing subvisible particles including protein particles, silicone oil droplets and air bubbles. This dataset was developed to address the accurate detection and classification of subvisible particles in protein-based therapeutic drugs, so as to evaluate their safety, efficacy and stability. The dataset was collected via flow imaging microscopy, and supplementary data was generated using diffusion models to resolve the problem of data imbalance.

提供机构：

根特大学

创建时间：

2025-08-08

搜集汇总

数据集介绍

构建方式

该数据集通过流式成像显微镜技术采集了生物治疗药物中的亚可见颗粒图像，包括蛋白质颗粒、硅油滴和气泡三类。研究团队采用热应力和机械应力方法诱导单克隆抗体产生蛋白质聚集体，同时从硅化注射器中提取硅油滴，并通过手动筛选获得气泡图像。所有图像经过标准化处理，最小边缘统一调整为64像素以保持比例一致性。为应对数据不平衡问题，团队额外训练了基于扩散模型的生成式AI，专门合成硅油滴和气泡的仿真图像，用于扩充少数类样本。

使用方法

该数据集专为训练和评估亚可见颗粒分类模型设计，研究人员可采用两种典型应用范式：直接使用真实图像训练传统分类模型，或结合生成图像构建平衡数据集。数据集已按7:3比例划分训练验证集，并提供了ResNet-18和ResNet-50基准模型的完整性能指标。为提升模型鲁棒性，建议采用迁移学习策略，先在大型真实蛋白质颗粒数据上预训练，再使用混合数据集进行微调。所有生成图像均经过FID指标量化评估，确保其符合真实颗粒的形态学特征分布。

背景与挑战

背景概述

Sub-visible particles dataset是由Ghent University和Technical University of Munich等机构的研究团队于2025年创建的，旨在解决生物治疗药物中不可见颗粒的分类问题。该数据集通过流式成像显微镜（FIM）结合深度学习技术，能够有效区分硅油滴、气泡和蛋白质颗粒等不同类型的颗粒。其核心研究问题在于如何克服数据稀缺和类别不平衡的挑战，以提升多分类器的性能。该数据集的发布为药物质量控制领域提供了重要的研究工具，推动了自动化颗粒分类技术的发展。

当前挑战

Sub-visible particles dataset面临的挑战主要包括两方面：首先，在领域问题方面，数据集中不同类别的颗粒数量严重不平衡，尤其是硅油滴和气泡等颗粒的样本数量远少于蛋白质颗粒，这导致多分类器训练时难以有效学习少数类别的特征。其次，在构建过程中，由于某些颗粒类型（如硅油滴和气泡）的获取和标注需要专家手动操作，数据采集成本高昂且耗时，进一步加剧了数据稀缺问题。此外，流式成像显微镜图像的分辨率差异也为数据标准化带来了技术挑战。

常用场景

经典使用场景

Sub-visible particles dataset在生物制药领域中被广泛应用于蛋白质治疗药物的质量控制研究。该数据集通过流式成像显微镜（FIM）结合深度学习技术，能够高效识别和分类亚可见颗粒（SvPs），如硅油滴、气泡和蛋白质聚集体。研究人员利用该数据集训练多类分类器，以区分不同来源的颗粒，从而评估药物产品的安全性和稳定性。

解决学术问题

该数据集解决了生物制药领域中亚可见颗粒分类的数据稀缺和类别不平衡问题。通过生成对抗网络（GAN）和扩散模型（Diffusion Models）生成高质量的合成图像，有效补充了少数类别的训练数据，使得多类分类器能够在数据不平衡的条件下仍保持较高的分类准确率。这一方法显著提升了分类模型的鲁棒性，为药物质量控制提供了可靠的技术支持。

实际应用

Sub-visible particles数据集在实际应用中主要用于药物生产过程中的质量监控。例如，在单克隆抗体（mAbs）和其他生物治疗药物的生产中，该数据集帮助检测和分类潜在的污染物（如硅油滴和气泡），确保药物产品的纯净性和安全性。此外，该数据集还被用于优化流式成像显微镜（FIM）的成像参数，提升颗粒检测的灵敏度和特异性。

数据集最近研究