gOLIVES/OLIVES_Dataset

Name: gOLIVES/OLIVES_Dataset
Creator: gOLIVES
Published: 2024-07-10 13:49:46
License: 暂无描述

Hugging Face2024-07-10 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/gOLIVES/OLIVES_Dataset

下载链接

链接失效反馈

资源简介：

OLIVES数据集是一个眼科医学领域的数据集，旨在解决现有数据集在疾病预测和生物标志物评估方面的不足。该数据集包含多种数据模态，包括临床标签、生物标志物、眼底图像和光学相干断层扫描（OCT）图像，以及时间序列的患者治疗信息。具体来说，数据集包含1268张眼底图像，每张图像对应49个OCT扫描和16个生物标志物，以及3个临床标签和DR或DME的疾病诊断。数据集还提供了96只眼睛的数据，这些数据平均覆盖了至少两年的治疗期，每只眼睛平均接受了66周的治疗和7次注射。OLIVES数据集在机器学习研究领域具有优势，特别是在自监督学习方面，因为它提供了基于医学的增强方案。

The OLIVES dataset is a medical dataset in the field of ophthalmology, designed to address the limitations of existing datasets in disease prediction and biomarker assessment. The dataset includes multiple data modalities such as clinical labels, biomarkers, fundus images, and Optical Coherence Tomography (OCT) scans, along with time-series patient treatment information. Specifically, the dataset contains 1268 fundus images, each associated with 49 OCT scans and 16 biomarkers, as well as 3 clinical labels and a diagnosis of DR or DME. The dataset also provides data for 96 eyes, averaging at least two years of treatment, with each eye receiving an average of 66 weeks of treatment and 7 injections. The OLIVES dataset has advantages in the field of machine learning research, particularly in self-supervised learning, as it provides medically grounded augmentation schemes.

提供机构：

gOLIVES

原始信息汇总

OLIVES Dataset: Ophthalmic Labels for Investigating Visual Eye Semantics

概述

名称: OLIVES Dataset
领域: 医学
标签: 眼科
规模: 10K<n<100K

数据集配置

默认配置:
- 数据文件:
  - 分割: biomarkers
  - 路径:
    - "biomarkers/*.png"
    - "biomarkers/*.tif"
    - "biomarkers/metadata.csv"

数据集内容

图像: 1268张眼底图像，每张图像包含49张OCT扫描图像。
生物标志物: 16种生物标志物。
临床标签: 3种临床标签。
疾病诊断: 糖尿病视网膜病变（DR）或糖尿病黄斑水肿（DME）。
时间序列信息: 96只眼睛的数据，平均治疗时间为66周，平均注射次数为7次。

标签分类

完整标签: 包含所有用于相关研究的临床信息。
机器学习中心标签:
- Biomarker_Clinical_Data_Images.csv: 包含9408张图像的完整生物标志物和临床标签。
- Clinical_Data_Images.xlsx: 包含78000+张图像的BCVA、CST、Eye ID和Patient ID。

数据下载示例

python from datasets import load_dataset from torch.utils.data import DataLoader

olives = load_dataset(gOLIVES/OLIVES_dataset,split=train) olives = olives.with_format("torch") dataloader = DataLoader(olives, batch_size=4) for batch in dataloader: print(batch)

print(olives[0][VMT])

引用

plaintext @inproceedings{prabhushankarolives2022, title={OLIVES Dataset: Ophthalmic Labels for Investigating Visual Eye Semantics}, author={Prabhushankar, Mohit and Kokilepersaud, Kiran and Logan, Yash-yee and Trejo Corona, Stephanie and AlRegib, Ghassan and Wykoff, Charles}, booktitle={Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks 2 (NeurIPS Datasets and Benchmarks 2022) }, year={2022} }

搜集汇总

数据集介绍

构建方式

在眼科医学领域，临床诊断依赖于多种数据模态，包括标量临床标签、矢量化生物标志物、二维眼底图像和三维光学相干断层扫描（OCT）扫描。OLIVES数据集通过整合这些多模态数据，构建了一个全面的眼科数据集。该数据集包括1268张眼底图像，每张图像附有49次OCT扫描，以及16个生物标志物和3个临床标签，涵盖糖尿病视网膜病变（DR）和糖尿病黄斑水肿（DME）的诊断信息。数据集的构建基于临床试验的时间序列信息，平均每个患者的数据覆盖至少两年的治疗周期，每个眼睛平均接受66周和7次注射治疗。

特点

OLIVES数据集的显著特点在于其多模态数据的整合，不仅包括眼底图像和OCT扫描，还涵盖了临床标签和生物标志物，提供了丰富的诊断信息。此外，数据集还包含了患者的时间序列治疗信息，这为研究疾病进展和治疗效果提供了宝贵的资源。数据集的设计还考虑了机器学习研究的需求，特别是自监督学习，提供了基于医学背景的数据增强方案。

使用方法

使用OLIVES数据集进行疾病分类时，可以通过加载数据集并将其转换为PyTorch格式来实现。例如，使用`datasets`库的`load_dataset`函数加载数据集，并使用`DataLoader`进行批量处理。数据集中的每个样本包含图像、最佳中心视力（BCVA）、中央子场厚度（CST）、患者ID和疾病标签等信息。通过访问特定的生物标志物字段，如VMT（玻璃体黄斑牵引），可以进一步分析和分类疾病。

背景与挑战

背景概述

在眼科医学领域，临床诊断依赖于多种数据模态，包括标量临床标签、矢量化生物标志物、二维眼底图像和三维光学相干断层扫描（OCT）扫描。这些数据模态在诊断和治疗眼病如糖尿病视网膜病变（DR）或糖尿病黄斑水肿（DME）中起着关键作用。然而，现有数据集的局限性在于它们仅关注疾病预测而忽视了生物标志物的评估，且未考虑治疗期间所有四种数据模态之间的显式关系。为此，Prabhushankar等人于2022年引入了Ophthalmic Labels for Investigating Visual Eye Semantics（OLIVES）数据集，该数据集首次整合了OCT和眼底图像、临床标签、生物标志物标签以及来自相关临床试验的时间序列患者治疗信息，旨在填补这一研究空白。

当前挑战

OLIVES数据集在构建过程中面临多项挑战。首先，整合多种数据模态（如OCT扫描、眼底图像、临床标签和生物标志物）需要高度复杂的处理和标注技术，以确保数据的准确性和一致性。其次，数据集中的时间序列信息涉及患者在治疗期间的多次访问，这要求对数据进行精细的时间对齐和处理，以捕捉疾病进展和治疗效果的动态变化。此外，数据集中存在部分患者信息的缺失或重复扫描问题，如患者ID #79的BCVA和CST信息缺失，以及患者ID #61的扫描图像重复，这些都需要在数据预处理阶段进行有效处理和校正。最后，如何在机器学习模型中有效利用这些多模态和时间序列数据，以提高疾病分类和生物标志物检测的准确性，仍是一个亟待解决的研究问题。

常用场景

经典使用场景

在眼科医学领域，gOLIVES/OLIVES_Dataset 数据集的经典使用场景主要集中在疾病分类和生物标志物检测。通过整合二维眼底图像和三维光学相干断层扫描（OCT）数据，该数据集能够支持机器学习算法在糖尿病视网膜病变（DR）和糖尿病黄斑水肿（DME）等眼科疾病的诊断与分类任务中的应用。此外，数据集中的时间序列患者治疗信息为研究疾病进展和治疗效果提供了宝贵的资源。

实际应用

在实际应用中，gOLIVES/OLIVES_Dataset 数据集被广泛用于开发和验证眼科疾病的自动诊断系统。例如，医疗机构可以利用该数据集训练深度学习模型，以辅助眼科医生进行糖尿病视网膜病变和糖尿病黄斑水肿的早期检测和分类。此外，数据集中的时间序列信息还可以用于评估不同治疗方案的效果，从而优化临床决策过程，提高治疗效率和患者预后。

衍生相关工作

gOLIVES/OLIVES_Dataset 数据集的发布催生了一系列相关研究工作，特别是在眼科医学的机器学习和深度学习领域。例如，研究人员利用该数据集开发了多种基于图像和生物标志物的疾病分类模型，这些模型在多个国际会议和期刊上发表，并被广泛引用。此外，数据集的时间序列特性还启发了在自监督学习和医学数据增强方面的创新研究，进一步推动了眼科医学数据科学的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集