five

Deltadahl/OCT-Longitudinal

收藏
Hugging Face2024-06-13 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/Deltadahl/OCT-Longitudinal
下载链接
链接失效反馈
官方服务:
资源简介:
OCT-Longitudinal数据集是一个为医学影像领域的学术和研究目的而设计的合成数据集。该数据集包含110万张合成的OCT图像及其对应的合成纵向数据。这些图像是通过变分自编码器(VAE)和稳定扩散(SD)模型生成的,而纵向数据则是通过非线性混合效应(NLME)模型生成的。该数据集旨在用于基准测试预测算法,分析图像信息价值对算法性能的影响,并探索图像与纵向数据之间的合成相关性。该数据集不适合直接用于临床、法律、诊断或治疗目的。数据集是自包含的,不包含机密或敏感数据,并以CC BY 4.0许可证分发。

The OCT-Longitudinal Dataset is a synthetic dataset designed for academic and research purposes in the field of medical imaging. This dataset contains 1.1 million synthetic OCT images and their corresponding synthetic longitudinal data. These images are generated using Variational Autoencoders (VAE) and Stable Diffusion (SD) models, while the longitudinal data is generated via Nonlinear Mixed Effects (NLME) models. This dataset is intended for benchmarking prediction algorithms, analyzing the impact of image information value on algorithm performance, and exploring the synthetic correlation between images and longitudinal data. This dataset is not suitable for direct clinical, legal, diagnostic, or therapeutic use. The dataset is self-contained, contains no confidential or sensitive data, and is distributed under the CC BY 4.0 license.
提供机构:
Deltadahl
原始信息汇总

数据集概述

名称: OCT-Longitudinal

描述: 该数据集包含110万张合成OCT图像及其对应的合成纵向数据,专为医学影像领域机器学习模型的开发和测试设计。数据集通过Variational Autoencoder (VAE)和Stable Diffusion (SD)模型生成图像,通过Nonlinear Mixed-Effects (NLME)模型生成纵向数据,以探索图像信息价值对预测患者纵向结果的影响。

数据集内容

  • 数据类型: 合成OCT图像和纵向数据
  • 数据量: 110万张OCT图像,每张图像对应5组纵向观察数据
  • 数据结构: 图像数据存储在generated_images/目录下,分为100万训练集和10万测试集;纵向数据存储在longitudinal_data/目录下。
  • 数据生成: 使用VAE和SD模型生成图像,NLME模型生成纵向数据。

数据集用途

  • 学术和研究目的: 用于基准测试预测算法,分析图像信息价值对算法性能的影响,探索图像与纵向数据之间的合成相关性。
  • 非适用场景: 不适用于直接临床应用、法律、诊断或治疗目的,以及未明确数据合成性质的模型训练。

数据集维护

  • 维护者: Simon Deltadahl及其团队
  • 联系方式: Simon Deltadahl (scfc3@cam.ac.uk)
  • 数据集位置: GitHubHugging Face

许可证

  • 许可证类型: CC BY 4.0
  • 许可证详情: 允许他人共享和改编数据,需适当注明来源。

数据集结构

plaintext OCT-Longitudinal/ │ ├── 128_dim_latent_space/ # 用于创建图像和纵向数据的潜在空间向量 │ ├── longitudinal_data/ # 纵向数据 │ ├── generated_images/ # 由SD模型生成的图像 │ ├── 100k_test/ # 100,000测试集 │ └── 1M_train/ # 1,000,000训练和验证集 │ ├── saved_models/ # 论文中使用的训练模型 │ ├── SD_OCT/ # Stable Diffusion模型 │ └── VAE.jld2/ # Variational Auto Encoder │ ├── test_images/ # 用于测试集的图像 │ ├── croissant.json/ # 元数据 │ └── .gitignore # 指定应忽略的未跟踪文件

数据集限制与建议

  • 限制: 由于数据集的合成性质,可能无法完全捕捉真实世界医疗数据的复杂性和变异性。
  • 建议: 研究人员应使用真实世界数据验证发现,明确声明数据的合成性质,并主要用于初步测试和模型开发。
搜集汇总
数据集介绍
main_image_url
构建方式
在医学影像分析领域,合成数据为算法开发提供了隐私合规的解决方案。OCT-Longitudinal数据集的构建采用了多阶段生成模型策略:首先,基于公开的109,309张光学相干断层扫描图像,训练变分自编码器以构建结构化潜在空间;随后,利用该潜在空间引导稳定扩散模型生成110万张合成OCT图像;最后,通过非线性混合效应模型生成对应的纵向观测数据,并通过引入可控噪声水平,精确调节图像与纵向数据之间的解释性关联,形成550万对数据样本。
使用方法
该数据集主要服务于机器学习模型的开发与评估,尤其适用于医学影像预测算法的基准测试。研究人员可通过加载预划分的训练集与测试集,探索图像特征与患者纵向结局之间的关联建模。使用时应明确数据的合成属性,避免直接用于临床诊断;建议将本数据集作为模型初步验证与算法敏感性分析的工具,并在最终结论中结合真实世界数据进行交叉验证,以确保研究成果的外部效度与临床相关性。
背景与挑战
背景概述
在医学影像与人工智能交叉领域,合成数据集的构建正成为推动算法发展的重要基石。OCT-Longitudinal数据集于2024年由剑桥大学应用数学与理论物理系的Simon Deltadahl与Pumas-AI Inc.的Andreu Vall、Vijay Ivaturi及Niklas Korsbo联合创建,旨在解决医学影像预测模型在真实临床数据稀缺与隐私限制下的基准测试难题。该数据集通过变分自编码器与稳定扩散模型生成110万张合成光学相干断层扫描图像,并耦合非线性混合效应模型模拟纵向患者结局数据,核心研究聚焦于影像信息量与患者预后之间的量化关联,为医疗机器学习模型提供了一个可控、可复现的评估平台,显著促进了医学影像分析方法的可解释性与鲁棒性研究。
当前挑战
该数据集致力于应对医学影像预测领域的核心挑战:如何在图像信息与临床结局之间建立可靠且可泛化的关联模型。具体而言,其旨在解决影像特征对患者纵向结局的解释力差异问题,通过合成数据中人为调控的噪声水平(2%至100%),模拟真实世界中影像与预后间不确定的相关性,从而评估模型在不同信噪比条件下的稳健性。在构建过程中,研究团队面临多重技术挑战,包括:如何确保变分自编码器潜空间的结构化表征能够准确引导稳定扩散模型生成病理学意义连贯的合成影像;以及如何设计非线性混合效应模型,以生成与影像特征具有可控统计关联的纵向数据,同时保持合成数据的生物学合理性与多样性。
常用场景
经典使用场景
在医学影像分析领域,OCT-Longitudinal数据集为研究者提供了一个独特的基准测试平台。该数据集通过合成光学相干断层扫描图像与纵向观测数据的配对,使得机器学习模型能够在受控环境中评估图像信息对患者预后预测的价值。其经典使用场景聚焦于开发与验证预测算法,这些算法旨在从医学影像中提取特征以推断疾病进展趋势,从而为模型性能的量化比较奠定基础。
解决学术问题
该数据集有效应对了医学人工智能研究中数据隐私与解释性不确定的核心挑战。通过生成合成数据,它规避了真实患者信息的敏感性问题,同时精确调控图像与纵向数据之间的关联强度,使得研究者能够系统探究影像信息含量对预测模型性能的影响。这一设计为解决模型鲁棒性评估、信号噪声分离以及可解释性研究提供了标准化实验框架,推动了医疗预测算法在理论层面的深化。
实际应用
在实际应用层面,OCT-Longitudinal数据集主要服务于医疗人工智能的研发流程。它可作为算法原型验证与初步测试的有效工具,帮助研究团队在投入真实临床数据前优化模型架构与参数。此外,该数据集支持探索合成数据在模型训练中的辅助作用,例如用于数据增强或迁移学习,以缓解医疗领域数据稀缺的困境,加速诊断辅助系统与预后工具的早期开发。
数据集最近研究
最新研究方向
在医学影像分析领域,合成数据正成为突破隐私限制、加速模型开发的关键工具。OCT-Longitudinal数据集通过变分自编码器与稳定扩散模型生成百万级合成OCT图像,并耦合非线性混合效应模型模拟纵向临床数据,为算法鲁棒性评估提供了可控实验环境。当前研究聚焦于探索图像信息量与患者预后预测之间的量化关联,利用数据集内嵌的噪声调控机制,系统分析机器学习模型在不同解释力阈值下的性能边界。这一方向不仅推动了合成数据在医疗AI中的验证范式革新,也为解决真实世界数据稀缺性难题提供了可复现的基准框架,在眼科疾病进展预测、治疗反应评估等热点议题中展现出重要方法论价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作