five

Multi-Modal Dataset for Federated Learning with DICOM Structured Reports|医疗数据数据集|联邦学习数据集

收藏
arXiv2024-07-12 更新2024-08-06 收录
医疗数据
联邦学习
下载链接:
http://arxiv.org/abs/2407.09064v1
下载链接
链接失效反馈
资源简介:
该数据集由德国心血管研究中心及其合作伙伴创建,旨在通过DICOM结构化报告整合多种医疗数据类型,支持联邦学习。数据集内容包括CT图像、心电图扫描、患者元数据等,通过统一的DICOM表示和过滤选项实现数据集的标准化和一致性。创建过程中,各机构从其临床信息系统中导出相关数据,并转换为DICOM格式以实现数据集成和匹配。该数据集主要应用于预测微创心脏瓣膜置换后的结果,通过多模态数据的整合和分析,提高深度学习模型在临床实践中的预测性能。
提供机构:
德国心血管研究中心(DZHK,所有合作伙伴站点)
创建时间:
2024-07-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
本数据集的构建基于DICOM结构化报告,旨在解决联邦学习中数据集异构性的问题。数据集通过使用highdicom库将来自不同来源和模态的数据整合到一个统一的框架中,并通过结构化报告实现标准化。在此基础上,开发了一个开放平台,具有数据集成和交互式过滤功能,简化了多模态数据集的构建过程。
特点
该数据集的特点在于其多模态性和联邦学习的适应性。数据集包含了DICOM数据(如CT图像、心电图扫描)、注释(如钙化分割、点集和起搏器依赖性)和元数据(如假体和诊断)。此外,数据集的构建还考虑到了隐私保护,通过在各个机构本地进行训练,避免了敏感数据的集中存储。
使用方法
使用该数据集时,首先需要将来自不同机构的数据转换为DICOM格式,并上传到平台。然后,利用平台的交互式过滤功能,根据研究需求对数据进行筛选和匹配。最后,将筛选后的数据导出,以便进行联邦学习训练。该平台既可作为独立应用使用,也可作为现有框架的扩展,如Kaapana平台。
背景与挑战
背景概述
随着深度学习在医学领域的应用日益广泛,多模态数据集的构建对于模型的训练和预测至关重要。本研究背景下的数据集名为Multi-Modal Dataset for Federated Learning with DICOM Structured Reports,由德国心血管研究中心(DZHK)等机构的多个研究团队共同创建。该数据集的核心研究问题是如何利用DICOM结构化报告实现多模态数据的整合和交互式过滤,以便于构建适合联邦学习的多模态数据集。该数据集的创建对于推动联邦学习在医疗领域的应用具有重要意义。
当前挑战
本研究背景下的数据集主要面临的挑战包括:1)如何处理不同来源和模态的数据整合问题,实现统一的数据表示和过滤选项;2)如何应对联邦学习中数据集异构性带来的挑战,确保模型训练的有效性;3)如何利用DICOM结构化报告的特点,实现高效的多模态数据过滤和匹配。
常用场景
经典使用场景
在医学影像分析领域,多模态数据集为联邦学习提供了强大的支持。本数据集通过DICOM结构化报告,实现了不同来源和模态数据的整合,并提供了交互式筛选功能,极大地简化了多模态数据集的构建过程。经典使用场景包括预测微创心脏瓣膜置换后的结果,该场景涉及多种数据类型,如CT图像、心电图扫描、钙化分割、点集和起搏器依赖性,以及元数据如假体和诊断信息。
实际应用
该数据集在实际应用中展示了其在联邦学习环境下的强大功能。通过将模型发送到每个数据拥有机构进行本地训练,然后汇总模型权重,从而实现了跨多个地点的联邦训练。这对于预测微创心脏瓣膜置换后的结果具有重要意义,因为它允许在不同地点创建统一的多模态数据集,从而提高了数据的质量和模型的性能。
衍生相关工作
该数据集衍生了多项相关工作,如在联邦学习环境下进行数据整合和筛选的研究,以及在医学影像分析中使用多模态数据集的研究。这些研究进一步拓展了该数据集的应用范围,为其在医学影像分析和临床研究中的应用提供了更多的可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录