five

SynFundus-1M|医疗影像数据集|合成数据集数据集

收藏
arXiv2024-03-14 更新2024-06-21 收录
医疗影像
合成数据集
下载链接:
https://github.com/parap1uie-s/SynFundus-1M
下载链接
链接失效反馈
资源简介:
SynFundus-1M是由百度公司医疗事业部创建的高质量合成眼底图像数据集,包含超过一百万张图像和十五种标注类型。该数据集通过训练一个强大的去噪扩散概率模型SynFundus-Generator生成,涵盖了临床中常见的多种眼底疾病和图像可读性标注。数据集的创建旨在解决智能医疗影像研究中因数据隐私和标注成本高昂而导致的公共高质量数据集稀缺问题。SynFundus-1M的应用领域广泛,包括眼底疾病的自动诊断和预训练模型的优化,旨在通过提供高质量的合成数据集推动眼底影像分析技术的发展。
提供机构:
百度公司医疗事业部
创建时间:
2023-12-01
AI搜集汇总
数据集介绍
main_image_url
构建方式
SynFundus-1M数据集的构建方式是通过训练一个名为SynFundus-Generator的降噪扩散概率模型来实现的。该模型基于一个包含超过130万张真实眼底图像的私有数据集进行训练,这些图像涵盖了不同的视网膜疾病和临床场景。SynFundus-Generator采用变分自编码器和扩散模型两个阶段进行训练,以生成高保真的合成眼底图像。生成的图像随后由AI诊断平台自动标注,形成了一个包含11种疾病标签和4种图像可读性标签的丰富标注数据集。
特点
SynFundus-1M数据集的特点在于其大规模和高保真度。它包含了超过100万张合成眼底图像,这些图像在视觉特征和病变模拟上与真实图像难以区分。此外,数据集提供了15种类型的标注,包括11种疾病标签和4种图像可读性标签,这使得数据集在眼底疾病诊断和图像分析方面具有广泛的应用价值。SynFundus-1M的构建旨在解决大规模高质量眼底图像数据集的缺乏问题,为智能医疗影像研究提供有力的支持。
使用方法
使用SynFundus-1M数据集的方法包括下游任务的微调和预训练。研究人员可以利用数据集中的合成图像来训练或微调视网膜疾病诊断模型,如卷积神经网络(CNN)或视觉Transformer(ViT)架构。通过在SynFundus-1M上进行预训练,模型在下游任务上的性能和收敛速度都得到了显著提升。此外,数据集还可以用于研究眼底图像的可读性分析,帮助模型在面对低质量图像时仍能保持稳健的性能。SynFundus-1M数据集的开放获取性使其成为眼底影像分析领域的重要资源。
背景与挑战
背景概述
眼底成像作为提高眼疾早期检测和精准治疗的重要基础,近年来在深度学习方法的应用上取得了显著进展。然而,现有的眼底图像数据集在图像数量和标注质量上往往受限,难以满足大规模深度学习模型训练的需求。为了解决这一问题,百度医疗团队与香港科技大学、北京大学的研究人员合作,于2024年3月14日发布了一个名为SynFundus-1M的高质量合成眼底图像数据集,该数据集包含超过一百万张眼底图像,并针对十一种疾病类型进行了标注。SynFundus-1M数据集的发布为眼底疾病诊断模型的研究提供了大量高质量的训练数据,对于推动眼底成像分析技术的发展具有重要意义。
当前挑战
尽管SynFundus-1M数据集在眼底图像分析领域具有重要价值,但其在构建和应用过程中也面临着一些挑战。首先,眼底图像分析模型在处理低可读性图像时仍存在困难,这需要进一步提高模型对低质量图像的识别能力。其次,现有的生成模型在生成眼底图像时可能存在一些局限性,例如对疾病症状的过度夸张,这需要研究人员进一步探索更先进的生成模型来提高图像的逼真度和多样性。此外,数据集的自动标注可能存在一定的噪声,这需要研究人员在使用数据集时进行仔细的检查和修正,以确保标注的准确性。
常用场景
经典使用场景
SynFundus-1M数据集广泛应用于眼底图像分析领域,尤其是在眼底疾病诊断和图像可读性评估方面。其高质量和大规模的合成图像为深度学习模型提供了丰富的训练数据,使得模型能够在多种眼底疾病分类和分级任务中表现出色。此外,该数据集包含的图像可读性标签也为模型提供了对低质量图像的鲁棒性训练,使其在实际应用中更具适应性。
实际应用
SynFundus-1M数据集在实际应用中具有广泛的价值。其高质量和大规模的合成图像为眼底疾病诊断模型提供了丰富的训练数据,使得模型能够在多种眼底疾病分类和分级任务中表现出色。此外,该数据集包含的图像可读性标签也为模型提供了对低质量图像的鲁棒性训练,使其在实际应用中更具适应性。例如,在糖尿病视网膜病变分级和青光眼诊断等任务中,使用SynFundus-1M进行预训练或微调的模型均取得了显著的性能提升。
衍生相关工作
SynFundus-1M数据集的发布推动了眼底图像分析领域的研究进展。其高质量和大规模的合成图像为深度学习模型提供了丰富的训练数据,使得模型能够在多种眼底疾病分类和分级任务中表现出色。此外,该数据集包含的图像可读性标签也为模型提供了对低质量图像的鲁棒性训练,使其在实际应用中更具适应性。基于SynFundus-1M的研究成果,未来的研究可以探索更先进的扩散模型和图像生成方法,进一步提升眼底图像分析模型的性能和鲁棒性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

DermNet

DermNet是一个包含皮肤病图像的数据集,涵盖了多种皮肤病类型,如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。

www.dermnetnz.org 收录

weibo-comments-v1

该数据集包含多个特征,如id、文本内容、标记的id、用户昵称、评论和标签。数据集被分为训练集和测试集,分别有2325和582个样本。数据集的下载大小为810622字节,数据集大小为1266259.0字节。

huggingface 收录

INTERACTION Dataset

INTERACTION数据集是由加州大学伯克利分校机械系统控制实验室等多个国际研究机构合作创建的,旨在为自动驾驶领域提供高质量的交互式驾驶场景数据。该数据集包含多种复杂的交互式驾驶场景,如城市/高速公路/匝道合并和车道变更、环形交叉口、信号交叉口等,覆盖多个国家和文化背景,以自然方式包含不同文化的驾驶偏好和风格。数据集强调高度交互和复杂的驾驶行为,包括对抗性和合作性运动,以及从常规安全操作到危险、接近碰撞的操纵。此外,数据集提供完整的语义地图信息,包括物理层、参考线、车道连接和交通规则,记录自无人机和交通摄像头。该数据集适用于运动预测、模仿学习、决策制定和规划、表示学习、交互提取和社会行为生成等研究领域,旨在解决自动驾驶中的关键问题。

arXiv 收录