RedDino

Name: RedDino
Creator: 意大利卡利亚里大学数学与计算机科学系, 德国慕尼黑赫尔姆霍茨人工智能健康研究所
Published: 2025-08-12 00:59:31
License: 暂无描述

arXiv2025-08-12 更新2025-08-13 收录

下载链接：

https://github.com/Snarci/RedDino

下载链接

链接失效反馈

官方服务：

资源简介：

RedDino数据集是一个用于红细胞图像分析的自我监督基础模型。该数据集由来自不同获取方式和来源的125万张红细胞图像组成，旨在帮助诊断血液学疾病。数据集的创建过程包括从18个公开的红细胞图像数据集中提取训练样本，并进行分割和非重叠图像块提取。RedDino数据集可用于红细胞分类和形状分析，旨在解决计算血液学中的关键挑战。

The RedDino Dataset is a self-supervised foundation model-based dataset for red blood cell image analysis. It consists of 1.25 million red blood cell images from various acquisition approaches and sources, with the goal of assisting in the diagnosis of hematological diseases. The construction of this dataset involves extracting training samples from 18 public red blood cell image datasets, followed by segmentation and non-overlapping patch extraction. The RedDino Dataset can be used for red blood cell classification and shape analysis, and is designed to address key challenges in computational hematology.

提供机构：

意大利卡利亚里大学数学与计算机科学系, 德国慕尼黑赫尔姆霍茨人工智能健康研究所

创建时间：

2025-08-12

原始信息汇总

RedDino 数据集概述

1. 数据集简介

名称: RedDino
类型: 红细胞（RBC）图像分析基础模型
训练数据量: 超过 125 万张红细胞图像
主要用途: 分类、形态学分析和特征嵌入任务

2. 模型特点

基础架构: 基于 DINOv2 框架的自监督学习模型
关键创新:
- 基于补丁的训练（224×224 像素）
- 使用 Albumentations 进行数据增强（32 种像素级策略）
- 移除了 Koleo 正则化器，采用 Sinkhorn-Knopp 中心化
模型变体:
- RedDino-small: 384 维嵌入，22M 参数
- RedDino-base: 768 维嵌入，86M 参数
- RedDino-large: 1024 维嵌入，304M 参数

3. 性能表现

基准测试数据集: Elsafty、Chula 和 DSE
比较模型: ResNet50、DinoBloom 和 DINOv2
性能优势:
- 在 Elsafty 数据集上，RedDino-small 的加权 F1 得分为 86.0 ± 7.0
- 在 Chula 和 DSE 数据集上，平均性能提升 2-4%

4. 使用示例

加载模型: python model = timm.create_model("hf_hub:Snarcy/RedDino-small", pretrained=True)
图像预处理:
- 尺寸调整至 224×224
- 标准化处理

5. 资源与引用

代码库: https://github.com/Snarci/RedDino
模型库: https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc
引用: bibtex @misc{zedda2025reddinofoundationmodelred, title={RedDino: A foundation model for red blood cell analysis}, author={Luca Zedda and Andrea Loddo and Cecilia Di Ruberto and Carsten Marr}, year={2025}, eprint={2508.08180}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.08180}, }

6. 总结

RedDino 是首个专为红细胞图像分析设计的基础模型家族，通过大规模自监督学习在计算血液学领域设定了新的性能基准和泛化标准。

搜集汇总

数据集介绍

构建方式

RedDino数据集的构建基于自监督学习框架DINOv2，通过整合18个公开可用的红细胞图像数据集，涵盖了多种成像模态、分辨率和染色技术。数据集包含超过50,000张图像，来自420多名个体，并通过两种方法提取训练样本：一是使用经过微调的CellPose进行分割，生成3,076,269个分割细胞；二是提取224×224像素的非重叠斑块，生成1,250,781个斑块。这种多样化的数据来源和处理方法确保了数据集的广泛代表性和高质量。

特点

RedDino数据集的特点在于其规模庞大且多样化，包含1.25百万张红细胞图像，覆盖了多种病理状态和形态学特征。数据集通过自监督学习框架DINOv2进行优化，特别针对红细胞的形态学分析进行了定制，去除了Koleo正则化并采用Sinkhorn-Knopp中心化，显著提升了特征表示的质量。此外，数据集在多个下游任务中表现出色，尤其在红细胞形状分类任务中超越了现有最先进模型，展示了其强大的泛化能力和鲁棒性。

使用方法

RedDino数据集的使用方法主要包括特征提取和下游任务应用。用户可以通过预训练的RedDino模型提取红细胞图像的特征，随后利用线性探测或K近邻分类器进行红细胞形状分类或其他相关任务。数据集的评估采用了交叉验证和留一源出策略，确保了模型在不同数据源和设备上的泛化能力。此外，RedDino的预训练模型和源代码已在GitHub和Hugging Face平台上公开，便于研究人员直接应用于临床诊断或进一步的研究开发。

背景与挑战

背景概述

RedDino数据集由意大利卡利亚里大学和德国慕尼黑亥姆霍兹研究所的研究团队于2025年联合推出，旨在解决血液学领域中红细胞形态分析的瓶颈问题。该数据集包含125万张来自不同采集方式和来源的红细胞图像，是当前最全面的公开红细胞图像集合。研究团队基于DINOv2自监督学习框架，开发了专门针对红细胞分析的RedDino基础模型，在红细胞形状分类任务上显著超越了现有技术。这项工作推动了计算血液学的发展，为贫血、疟疾等血液疾病的自动化诊断提供了可靠的技术支持。

当前挑战

在领域问题层面，RedDino需要克服红细胞形态多样性带来的分类挑战，包括正常与病理细胞的细微差异识别，以及不同染色方案和成像设备导致的图像异质性。数据构建过程中，研究团队面临三大技术难题：首先是从原始血涂片中精确分割300余万个红细胞的技术实现；其次是处理18个来源数据集间的批次效应问题；最后是平衡病理样本稀缺性与模型泛化需求的数据增强策略设计。这些挑战通过创新的自监督学习架构和定制化的数据预处理流程得以解决。

常用场景

经典使用场景

RedDino数据集在红细胞形态学分析领域具有广泛的应用价值，尤其在血液病理学诊断中展现出卓越的性能。该数据集通过整合来自不同成像设备和染色技术的120万张红细胞图像，为研究人员提供了一个标准化的基准平台。在临床实践中，RedDino被广泛应用于自动化血涂片分析，能够准确识别包括疟疾感染细胞、椭圆形红细胞等在内的九种红细胞形态亚型。其自监督学习框架特别适合处理医学影像中常见的标注数据稀缺问题，使得模型在跨中心验证中保持了93%的加权F1值。

衍生相关工作

该数据集催生了系列重要研究：基于其特征提取器开发的RedTell系统实现了红细胞多参数联合分析；在跨模态应用方面，Koch等人将RedDino架构扩展至白细胞分类任务，创建了DinoBloom模型；最近发表的《Low-resource finetuning》论文证明，其预训练权重在仅100张标注图像下仍能达到SOTA性能。这些衍生工作共同推动了计算血液学从专用模型向通用基础模型的范式转变。

数据集最近研究