Deltadahl/OCT-Longitudinal
收藏数据集概述
名称: OCT-Longitudinal
描述: 该数据集包含110万张合成OCT图像及其对应的合成纵向数据,专为医学影像领域机器学习模型的开发和测试设计。数据集通过Variational Autoencoder (VAE)和Stable Diffusion (SD)模型生成图像,通过Nonlinear Mixed-Effects (NLME)模型生成纵向数据,以探索图像信息价值对预测患者纵向结果的影响。
数据集内容
- 数据类型: 合成OCT图像和纵向数据
- 数据量: 110万张OCT图像,每张图像对应5组纵向观察数据
- 数据结构: 图像数据存储在
generated_images/目录下,分为100万训练集和10万测试集;纵向数据存储在longitudinal_data/目录下。 - 数据生成: 使用VAE和SD模型生成图像,NLME模型生成纵向数据。
数据集用途
- 学术和研究目的: 用于基准测试预测算法,分析图像信息价值对算法性能的影响,探索图像与纵向数据之间的合成相关性。
- 非适用场景: 不适用于直接临床应用、法律、诊断或治疗目的,以及未明确数据合成性质的模型训练。
数据集维护
- 维护者: Simon Deltadahl及其团队
- 联系方式: Simon Deltadahl (scfc3@cam.ac.uk)
- 数据集位置: GitHub 和 Hugging Face
许可证
- 许可证类型: CC BY 4.0
- 许可证详情: 允许他人共享和改编数据,需适当注明来源。
数据集结构
plaintext OCT-Longitudinal/ │ ├── 128_dim_latent_space/ # 用于创建图像和纵向数据的潜在空间向量 │ ├── longitudinal_data/ # 纵向数据 │ ├── generated_images/ # 由SD模型生成的图像 │ ├── 100k_test/ # 100,000测试集 │ └── 1M_train/ # 1,000,000训练和验证集 │ ├── saved_models/ # 论文中使用的训练模型 │ ├── SD_OCT/ # Stable Diffusion模型 │ └── VAE.jld2/ # Variational Auto Encoder │ ├── test_images/ # 用于测试集的图像 │ ├── croissant.json/ # 元数据 │ └── .gitignore # 指定应忽略的未跟踪文件
数据集限制与建议
- 限制: 由于数据集的合成性质,可能无法完全捕捉真实世界医疗数据的复杂性和变异性。
- 建议: 研究人员应使用真实世界数据验证发现,明确声明数据的合成性质,并主要用于初步测试和模型开发。




