five

TJDR|医学图像分析数据集|糖尿病视网膜病变数据集

收藏
arXiv2023-12-24 更新2024-07-24 收录
医学图像分析
糖尿病视网膜病变
下载链接:
https://github.com/NekoPii/TJDR
下载链接
链接失效反馈
资源简介:
TJDR数据集是由同济大学创建的高质量糖尿病视网膜病变像素级标注数据集,包含561张来自同济医院的高分辨率彩色眼底图像。数据集通过严格的数据隐私保护原则,确保图像中不包含个人识别信息,同时清晰显示视盘、视网膜血管和黄斑等解剖结构。数据集中的病变通过Labelme工具进行标注,涵盖四种常见的病变类型:硬渗出物、出血、微动脉瘤和软渗出物。此数据集已分为训练和测试集,旨在推动糖尿病视网膜病变病变分割研究的进展。
提供机构:
同济大学
创建时间:
2023-12-24
原始信息汇总

TJDR: 高质量糖尿病视网膜病变像素级标注数据集

数据集概述

TJDR 是一个高质量的糖尿病视网膜病变(DR)像素级标注数据集,旨在促进 DR 病变分割研究。该数据集包含 561 张来自同济大学附属同济医院的高分辨率彩色眼底图像。

数据来源

  • 图像来源:同济大学附属同济医院
  • 采集设备:Topcon 的 TRC-50DX 和 Zeiss 的 CLARUS 500 眼底相机
  • 图像特点:高分辨率,确保了视盘、视网膜血管和黄斑等解剖结构的清晰显示

数据处理

  • 隐私保护:严格遵守数据隐私原则,移除了所有私人信息
  • 标注工具:使用 Labelme 工具进行标注
  • 标注内容:包含四种常见的糖尿病视网膜病变病变:微动脉瘤(MA)、出血(HE)、硬性渗出(EX)和软性渗出(SE)

标注质量

  • 标注人员:经验丰富的眼科医生进行标注,确保标注质量

数据集划分

  • 数据集分为训练集和测试集,并已公开发布

引用信息

如果您发现该数据集对您的研究有用,请考虑引用我们的论文: text @article{mao2023tjdr, title={TJDR: A High-Quality Diabetic Retinopathy Pixel-Level Annotation Dataset}, author={Jingxin Mao and Xiaoyu Ma and Yanlong Bi and Rongqing Zhang}, journal={arXiv preprint arXiv:2312.15389}, year={2023}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
TJDR数据集的构建始于同济大学附属同济医院眼科门诊部,通过回顾性收集561张糖尿病患者的眼底彩色图像,这些图像由Topcon的TRC-50DX和Zeiss的CLARUS 500两种高端眼底相机拍摄,分辨率分别为2,048×2,048像素和3,912×3,912像素。为确保数据隐私,所有可识别的个人信息均被仔细移除,同时确保图像中解剖结构如视盘、视网膜血管和黄斑区的清晰可见。使用Labelme工具,由经验丰富的眼科医生对四种常见的糖尿病视网膜病变(DR)病变进行像素级标注,包括硬性渗出(EX)、出血(HE)、微动脉瘤(MA)和软性渗出(SE),最终形成高质量的像素级标注数据集。
特点
TJDR数据集的显著特点在于其高分辨率和精细的像素级标注。图像来源多样,涵盖了不同型号的高端眼底相机,确保了图像质量的一致性和高清晰度。标注过程由资深眼科医生执行,确保了标注的准确性和可靠性。数据集中的图像涵盖了多种DR病变类型,特别是EX和HE的标注图像数量较多,这与现有像素级DR数据集的特征相符。此外,数据集被划分为训练集和测试集,比例为4:1,便于在深度学习模型训练和评估中使用。
使用方法
TJDR数据集主要用于糖尿病视网膜病变(DR)的病变分割研究。研究者可以利用该数据集训练和验证基于深度学习的病变分割模型,通过像素级标注的图像,模型能够更精确地识别和分割视网膜中的各种病变。数据集的公开发布为DR病变分割领域的研究提供了宝贵的资源,研究者可以直接下载并应用于各种机器学习和计算机视觉算法中,以提升DR诊断的准确性和效率。
背景与挑战
背景概述
糖尿病视网膜病变(Diabetic Retinopathy, DR)作为一种严重的眼部并发症,需要及时干预和治疗。尽管人工智能在辅助DR分级方面表现出色,但通过精确病变分割来提高DR分级解释性的研究进展却因缺乏像素级标注的DR数据集而受到严重阻碍。为此,本文介绍了TJDR数据集,这是一个高质量的DR像素级标注数据集,由同济大学附属同济医院收集的561张彩色眼底图像组成。这些图像来自多种眼底相机,包括Topcon的TRC-50DX和Zeiss的CLARUS 500,具有高分辨率。为确保数据隐私,所有图像中的个人识别信息均被仔细移除,同时确保显示视盘、视网膜血管和黄斑等解剖结构的清晰度。DR病变使用Labelme工具进行标注,涵盖四种常见的DR病变:硬性渗出(EX)、出血(HE)、微动脉瘤(MA)和软性渗出(SE),分别标记为1到4,背景标记为0。经验丰富的眼科医生进行标注工作,确保了数据集的高质量。该数据集已被划分为训练集和测试集,并公开发布,以推动DR病变分割研究领域的发展。
当前挑战
TJDR数据集在构建过程中面临多项挑战。首先,像素级标注的复杂性要求高精度的标注工具和经验丰富的眼科医生,以确保标注的准确性和一致性。其次,数据隐私保护在数据收集和处理过程中至关重要,需确保所有个人识别信息被彻底移除。此外,不同眼底相机采集的图像分辨率和视野范围的差异增加了数据标准化和处理的难度。最后,数据集的多样性和复杂性,特别是不同类型病变的表现形式和分布,对模型的训练和验证提出了更高的要求。这些挑战不仅影响了数据集的构建质量,也对后续的DR病变分割研究提出了更高的技术要求。
常用场景
经典使用场景
TJDR数据集在糖尿病视网膜病变(DR)的像素级病变分割研究中展现了其经典应用。通过提供高分辨率的彩色眼底图像和精细的像素级标注,该数据集为研究人员提供了丰富的视觉信息和精确的病变定位,从而推动了基于深度学习的DR病变检测和分割算法的发展。
衍生相关工作
基于TJDR数据集,研究人员已开发出多种先进的病变分割算法,并在多个国际竞赛中取得了优异成绩。此外,该数据集还激发了关于病变特征提取和分类的新研究方向,推动了眼科影像分析领域的技术进步和创新。
数据集最近研究
最新研究方向
在糖尿病视网膜病变(DR)领域,TJDR数据集的最新研究方向主要集中在通过高分辨率像素级标注提升病变分割的精确性和可解释性。该数据集包含了561张高质量的彩色眼底图像,这些图像来自同济大学附属同济医院,使用Topcon的TRC-50DX和Zeiss的CLARUS 500相机采集,确保了图像的清晰度和细节。研究者们利用Labelme工具对四种常见的DR病变——硬性渗出(EX)、出血(HE)、微动脉瘤(MA)和软性渗出(SE)进行了像素级标注,并通过多位资深眼科医生的交叉验证确保了标注的准确性。这一数据集的公开发布,为DR病变分割研究提供了宝贵的资源,有望推动该领域在病变检测和分类方面的技术进步,特别是在提高诊断的准确性和临床应用的可行性方面具有重要意义。
相关研究论文
  • 1
    TJDR: A High-Quality Diabetic Retinopathy Pixel-Level Annotation Dataset同济大学 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

World Flights

该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。

github 收录

glaive-function-calling-openai

该数据集包含用于训练和评估语言模型在函数调用能力上的对话示例。数据集包括一个完整的函数调用示例集合和一个精选的子集,专注于最常用的函数。数据集的结构包括一个完整的数据集和几个测试子集。每个记录都是一个JSON对象,包含对话消息、可用函数定义和实际的函数调用。数据集还包括最常用的函数分布信息,并提供了加载和评估数据集的示例代码。

huggingface 收录