SynFundus-1M

Name: SynFundus-1M
Creator: 百度公司医疗事业部
Published: 2024-03-14 20:29:29
License: 暂无描述

arXiv2024-03-14 更新2024-06-21 收录

下载链接：

https://github.com/parap1uie-s/SynFundus-1M

下载链接

链接失效反馈

官方服务：

资源简介：

SynFundus-1M是由百度公司医疗事业部创建的高质量合成眼底图像数据集，包含超过一百万张图像和十五种标注类型。该数据集通过训练一个强大的去噪扩散概率模型SynFundus-Generator生成，涵盖了临床中常见的多种眼底疾病和图像可读性标注。数据集的创建旨在解决智能医疗影像研究中因数据隐私和标注成本高昂而导致的公共高质量数据集稀缺问题。SynFundus-1M的应用领域广泛，包括眼底疾病的自动诊断和预训练模型的优化，旨在通过提供高质量的合成数据集推动眼底影像分析技术的发展。

SynFundus-1M is a high-quality synthetic fundus image dataset developed by the Medical Business Unit of Baidu, Inc., which contains over one million images and fifteen annotation types. This dataset is generated via training a robust denoising diffusion probabilistic model named SynFundus-Generator, covering a wide range of common clinical fundus diseases and image readability annotations. The dataset is created to address the scarcity of publicly available high-quality datasets in intelligent medical imaging research, which stems from data privacy concerns and high annotation costs. SynFundus-1M has broad application scenarios, including automated diagnosis of fundus diseases and optimization of pre-trained models, aiming to promote the development of fundus image analysis technology by providing high-quality synthetic datasets.

提供机构：

百度公司医疗事业部

创建时间：

2023-12-01

搜集汇总

数据集介绍

构建方式

SynFundus-1M数据集的构建方式是通过训练一个名为SynFundus-Generator的降噪扩散概率模型来实现的。该模型基于一个包含超过130万张真实眼底图像的私有数据集进行训练，这些图像涵盖了不同的视网膜疾病和临床场景。SynFundus-Generator采用变分自编码器和扩散模型两个阶段进行训练，以生成高保真的合成眼底图像。生成的图像随后由AI诊断平台自动标注，形成了一个包含11种疾病标签和4种图像可读性标签的丰富标注数据集。

特点

SynFundus-1M数据集的特点在于其大规模和高保真度。它包含了超过100万张合成眼底图像，这些图像在视觉特征和病变模拟上与真实图像难以区分。此外，数据集提供了15种类型的标注，包括11种疾病标签和4种图像可读性标签，这使得数据集在眼底疾病诊断和图像分析方面具有广泛的应用价值。SynFundus-1M的构建旨在解决大规模高质量眼底图像数据集的缺乏问题，为智能医疗影像研究提供有力的支持。

使用方法

使用SynFundus-1M数据集的方法包括下游任务的微调和预训练。研究人员可以利用数据集中的合成图像来训练或微调视网膜疾病诊断模型，如卷积神经网络(CNN)或视觉Transformer(ViT)架构。通过在SynFundus-1M上进行预训练，模型在下游任务上的性能和收敛速度都得到了显著提升。此外，数据集还可以用于研究眼底图像的可读性分析，帮助模型在面对低质量图像时仍能保持稳健的性能。SynFundus-1M数据集的开放获取性使其成为眼底影像分析领域的重要资源。

背景与挑战

背景概述

眼底成像作为提高眼疾早期检测和精准治疗的重要基础，近年来在深度学习方法的应用上取得了显著进展。然而，现有的眼底图像数据集在图像数量和标注质量上往往受限，难以满足大规模深度学习模型训练的需求。为了解决这一问题，百度医疗团队与香港科技大学、北京大学的研究人员合作，于2024年3月14日发布了一个名为SynFundus-1M的高质量合成眼底图像数据集，该数据集包含超过一百万张眼底图像，并针对十一种疾病类型进行了标注。SynFundus-1M数据集的发布为眼底疾病诊断模型的研究提供了大量高质量的训练数据，对于推动眼底成像分析技术的发展具有重要意义。

当前挑战

尽管SynFundus-1M数据集在眼底图像分析领域具有重要价值，但其在构建和应用过程中也面临着一些挑战。首先，眼底图像分析模型在处理低可读性图像时仍存在困难，这需要进一步提高模型对低质量图像的识别能力。其次，现有的生成模型在生成眼底图像时可能存在一些局限性，例如对疾病症状的过度夸张，这需要研究人员进一步探索更先进的生成模型来提高图像的逼真度和多样性。此外，数据集的自动标注可能存在一定的噪声，这需要研究人员在使用数据集时进行仔细的检查和修正，以确保标注的准确性。

常用场景

经典使用场景

SynFundus-1M数据集广泛应用于眼底图像分析领域，尤其是在眼底疾病诊断和图像可读性评估方面。其高质量和大规模的合成图像为深度学习模型提供了丰富的训练数据，使得模型能够在多种眼底疾病分类和分级任务中表现出色。此外，该数据集包含的图像可读性标签也为模型提供了对低质量图像的鲁棒性训练，使其在实际应用中更具适应性。

实际应用

SynFundus-1M数据集在实际应用中具有广泛的价值。其高质量和大规模的合成图像为眼底疾病诊断模型提供了丰富的训练数据，使得模型能够在多种眼底疾病分类和分级任务中表现出色。此外，该数据集包含的图像可读性标签也为模型提供了对低质量图像的鲁棒性训练，使其在实际应用中更具适应性。例如，在糖尿病视网膜病变分级和青光眼诊断等任务中，使用SynFundus-1M进行预训练或微调的模型均取得了显著的性能提升。

衍生相关工作

SynFundus-1M数据集的发布推动了眼底图像分析领域的研究进展。其高质量和大规模的合成图像为深度学习模型提供了丰富的训练数据，使得模型能够在多种眼底疾病分类和分级任务中表现出色。此外，该数据集包含的图像可读性标签也为模型提供了对低质量图像的鲁棒性训练，使其在实际应用中更具适应性。基于SynFundus-1M的研究成果，未来的研究可以探索更先进的扩散模型和图像生成方法，进一步提升眼底图像分析模型的性能和鲁棒性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集