five

CSDI Cataract Diagnosis Dataset

收藏
github2025-08-06 更新2025-08-07 收录
下载链接:
https://github.com/rainyNighti/CSDI
下载链接
链接失效反馈
官方服务:
资源简介:
CSDI白内障诊断数据集是一个经过专家标注的187张眼底图像的精选集合,包括白内障严重程度评分和双语诊断描述(中文和英文)。该数据集支持使用图像和文本模态进行自动化白内障筛查、分级和眼底图像解释的研究。

The CSDI Cataract Diagnosis Dataset is a curated collection of 187 expert-annotated fundus images, including cataract severity ratings and bilingual diagnostic descriptions (Chinese and English). This dataset supports research on the automation of cataract screening, grading, and fundus image interpretation using both image and text modalities.
创建时间:
2025-07-22
原始信息汇总

CSDI白内障诊断数据集概述

数据集基本信息

  • 名称:CSDI: A Fine-Grained Fundus Image Dataset of Cataract Severity and Diagnostic Images
  • 图像总数:187
  • 图像格式.png.jpg
  • 标注文件CSDI_diagnosis.csv(UTF-8编码)
  • 标注内容
    • 白内障严重程度评分(0-10)
    • 视盘定位
    • 视盘清晰度
    • 专家撰写的诊断描述(中英文双语)

文件结构

CSDI/ ├── original_images/ # 包含187张眼底图像 ├── CSDI_diagnosis.csv # 标注文件 └── README.md # 数据集说明

标注文件详情

  • 字段说明
    • id:图像文件名
    • score:白内障严重程度评分(0-10)
    • Chinese_diagnosis:中文诊断描述
    • English_diagnosis:英文诊断描述
    • optic_x, optic_y:视盘边界框左上角坐标(占图像宽高的百分比)
    • optic_width, optic_height:视盘边界框宽高(占图像宽高的百分比)
    • optic_disc_clear:视盘清晰度(clearblurry
    • image_width, image_height:图像实际分辨率(像素)

严重程度分级

严重程度 评分范围 数量 百分比(%)
正常 [0, 1) 9 4.81
轻度 [1, 3) 30 16.04
中度 [3, 5) 39 20.86
严重/晚期 [5, 7) 48 25.67
极重度 [7, 10] 61 32.62

诊断内容

  • 整体颜色:典型橙红色眼底背景
  • 视盘和血管清晰度:视盘边缘模糊和血管清晰度降低
  • 黄斑区:准确定位和评估
  • 视网膜血管清晰度和分支:从细分支血管到主要血管的可见性

应用领域

  • 自动化白内障筛查和分级
  • 眼科报告生成(图像到文本)
  • 眼底图像质量分析
  • 跨模态学习和医学视觉语言建模
  • 视盘检测和分割

作者信息

  • 机构:北京大学、新加坡国立大学、北京大学第三医院
  • 联系人:Zixun Xie、Mingxin Ao、Haiming Tang等
  • 邮箱:包含多位作者的邮箱地址

引用格式

bibtex @misc{csdi2025cataract, title = {CSDI: A Fine-Grained Fundus Image Dataset of Cataract Severity and Diagnostic Images}, author = {Xie, Zixun and Ao, Mingxin and Tang, Haiming and Li, Xuemin and Bai, Xiang and Zhang, Shanghang and Li, Dawei}, year = {2025}, note = {Under review at Scientific Data} }

搜集汇总
数据集介绍
main_image_url
构建方式
CSDI白内障诊断数据集通过专业眼科医师团队精心构建,收录187张眼底图像并采用双盲标注流程。每幅图像均包含0-10分的精确白内障严重程度评分,以及中英文双语诊断描述。标注过程中严格遵循标准化评分体系,通过视盘定位坐标、清晰度标记和结构化诊断内容确保数据一致性。图像格式涵盖PNG和JPEG两种常见类型,所有标注信息以UTF-8编码的CSV文件存储,支持跨平台使用。
特点
该数据集的核心价值在于其细粒度的多模态标注体系,不仅提供连续型严重程度评分,还包含视盘定位框的百分比坐标和清晰度标记。独特的双语诊断描述采用固定句式结构,系统评估眼底整体色泽、视盘清晰度、黄斑区可见度及血管分支可见性等关键指标。数据分布覆盖从正常到严重五个临床分级,其中32.62%样本属于重度白内障范畴,为算法训练提供均衡的疾病谱代表。
使用方法
研究者可通过解析CSDI_diagnosis.csv文件获取结构化标注,其中严重程度评分既支持回归任务也可转换为五级分类任务。图像与文本模态的联合标注使其适用于跨模态学习,如基于眼底图像的白内障分级或自动报告生成。视盘定位坐标采用相对百分比表示,需结合原始图像分辨率转换为绝对像素坐标。建议预处理时注意保持中英文诊断文本的UTF-8编码完整性,并参考提供的分级标准进行模型性能评估。
背景与挑战
背景概述
CSDI白内障诊断数据集是由北京大学、新加坡国立大学等机构的研究团队于2025年联合构建的精细眼底图像数据集,包含187张带有专家标注的眼底图像。该数据集创新性地整合了白内障严重程度评分(0-10分)和双语诊断描述(中英文),旨在推动基于多模态数据的自动化白内障筛查与分级研究。作为眼科人工智能领域的重要资源,它不仅支持传统的图像分类任务,更为跨模态学习和医疗视觉-语言建模提供了独特的研究平台。数据集构建过程中严格遵循标准化的评分体系和诊断协议,确保了标注的高质量和可靠性。
当前挑战
在解决白内障自动诊断这一核心问题上,该数据集面临的主要挑战包括:如何准确量化白内障严重程度的连续变化特征,以及如何处理眼底图像中因晶状体混浊导致的复杂视觉退化模式。在构建过程中,研究团队需要克服的挑战涉及:专家标注一致性保障,特别是在模糊眼底图像中定位视盘等关键结构的困难;多语言诊断描述的标准化表述;以及有限样本条件下保持数据多样性和代表性的平衡问题。这些挑战反映了医学图像分析中细粒度分类和跨模态理解的核心难点。
常用场景
经典使用场景
在眼科医学研究领域,CSDI数据集为白内障自动筛查和分级提供了重要支持。通过187张精细标注的眼底图像,研究人员能够开发基于深度学习的分类模型,精确预测白内障严重程度评分(0-10分)。该数据集特别适用于多模态学习场景,结合图像特征与双语诊断文本,推动计算机辅助诊断系统的发展。
解决学术问题
该数据集有效解决了医学影像分析中的三大核心问题:跨模态医疗数据对齐、细粒度疾病分级标准化以及小样本条件下的模型泛化能力。通过提供精确的视盘定位坐标、清晰度标注及双语诊断描述,为构建端到端的白内障诊断框架奠定了数据基础,显著提升了算法在临床环境中的解释性。
衍生相关工作
该数据集催生了多个标志性研究成果,包括基于多任务学习的《CataractNet》分级系统、结合视觉-语言预训练的《Ophtho-BERT》报告生成模型。2024年《Medical Image Analysis》刊发的《GradCAM++解释框架在CSDI上的验证研究》进一步推动了可解释AI在眼科的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作