five

FEDMEKI|医疗数据数据集|联邦学习数据集

收藏
arXiv2024-08-17 更新2024-08-21 收录
医疗数据
联邦学习
下载链接:
https://github.com/psudslab/FEDMEKI
下载链接
链接失效反馈
资源简介:
FEDMEKI数据集由宾夕法尼亚州立大学和Sony AI联合创建,旨在通过联邦学习方法集成医疗知识到基础模型中。该数据集涵盖了8个多样化的医疗任务,涉及7种医疗模态,包括图像、信号、文本等,来源于7个公开可用的数据集。数据集的创建过程包括多站点、多模态和多任务数据的精心处理和分割。FEDMEKI数据集主要应用于医疗领域,特别是在保护患者隐私的前提下,提升医疗基础模型的性能和泛化能力。
提供机构:
宾夕法尼亚州立大学, Sony AI
创建时间:
2024-08-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
FEDMEKI数据集的构建方式独具匠心,通过跨机构联邦学习方法,巧妙规避了集中式数据收集在医疗法规下的限制。该平台精心设计,能够处理多站点、多模态和多任务的医疗数据,涵盖了7种医疗模态,包括图像、信号、文本、实验室检测结果、生命体征、输入变量和输出变量。验证FEDMEKI的数据集涵盖了8个医疗任务,包括6个分类任务(肺不透明度检测、COVID-19检测、心电图异常检测、死亡率预测、脓毒症预测和心脏扩大检测)和2个生成任务(医疗视觉问答和心电图噪声澄清)。这些数据被划分为多个客户端,以促进在16种基准方法下的去中心化训练过程。
使用方法
FEDMEKI数据集的使用方法多样,适用于多种医疗AI模型的训练和评估。研究者可以通过该数据集进行多模态和多任务的联邦学习实验,以提升模型的泛化能力和任务适应性。具体使用时,可以将数据集划分为训练集和验证集,分别用于模型的训练和性能评估。此外,FEDMEKI平台还提供了16种基准方法,供研究者进行对比实验,从而更全面地评估模型的性能。
背景与挑战
背景概述
FEDMEKI数据集由宾夕法尼亚州立大学和索尼AI的研究人员于2024年创建,旨在解决在隐私约束下将医疗知识整合到基础模型中的独特挑战。该数据集通过跨机构联邦学习方法,规避了集中式数据收集的问题,这些数据收集通常受到健康法规(如美国的HIPAA法案)的限制。FEDMEKI平台精心设计,能够处理多站点、多模态和多任务的医疗数据,涵盖7种医疗模态,包括图像、信号、文本、实验室测试结果、生命体征、输入变量和输出变量。该数据集验证了FEDMEKI平台,涵盖8个医疗任务,包括6个分类任务(肺不透明度检测、COVID-19检测、心电图异常检测、死亡率预测、脓毒症预测和心脏扩大检测)和2个生成任务(医疗视觉问答和心电图噪声澄清)。FEDMEKI不仅保护了数据隐私,还通过允许基础模型在不直接暴露数据的情况下学习更广泛的医疗知识,增强了医疗基础模型的能力,从而在医疗领域的基础模型应用中树立了新的基准。
当前挑战
FEDMEKI数据集面临的挑战包括数据细调与参数适应的难题,即如何在客户端之间不共享私有数据的情况下提取医疗知识,并将客户端模型参数适应到基础模型中。此外,任务特定的细调与可扩展细调之间的平衡也是一个挑战,现有的医疗基础模型通常只能处理特定任务,而FEDMEKI需要同时细调具有多种模态的医疗基础模型。构建过程中遇到的挑战还包括数据异质性、通信开销和同步问题,这些都可能影响学习过程的整体效率和效果。
常用场景
经典使用场景
FEDMEKI数据集的经典使用场景在于通过跨机构的联邦学习方法,将医疗知识注入基础模型中,以解决在隐私约束下集成医疗数据的独特挑战。该数据集涵盖了多种医疗模态和任务,包括图像、信号、文本、实验室测试结果等,适用于训练和验证医疗基础模型在多站点、多模态和多任务环境下的性能。
解决学术问题
FEDMEKI数据集解决了在医疗领域中,由于数据隐私法规(如HIPAA)限制,难以集中收集和存储患者数据以训练医疗基础模型的学术问题。通过联邦学习,该数据集能够在不直接暴露数据的情况下,增强医疗基础模型的能力,使其能够从更广泛的医疗知识中学习,从而在医疗领域中应用基础模型时设立了新的基准。
实际应用
FEDMEKI数据集的实际应用场景包括但不限于疾病检测、患者生存预测、心电图异常检测等。通过联邦学习,医疗机构可以在不共享敏感患者数据的情况下,共同训练和改进医疗基础模型,从而提高诊断准确性和治疗效果。此外,该数据集还可用于开发个性化的医疗AI系统,以满足不同医疗机构的特定需求。
数据集最近研究
最新研究方向
在医疗领域,FEDMEKI数据集的前沿研究方向主要集中在通过联邦学习技术将医疗知识注入基础模型中,以解决隐私保护和数据共享的挑战。该数据集通过跨机构联邦学习方法,避免了集中式数据收集的限制,确保在遵守健康法规的前提下,提升医疗基础模型的能力。研究重点包括多站点、多模态和多任务数据的处理,以及如何在保护数据隐私的同时,增强模型对广泛医疗知识的理解和应用能力。这一方向的研究不仅有助于提高诊断准确性和个性化治疗,还为医疗AI的伦理和安全应用设立了新的标准。
相关研究论文
  • 1
    FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection宾夕法尼亚州立大学, Sony AI · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Alexa Domains

该数据集由前 100 万个网站的 URL 组成。 域名使用 Alexa 流量排名进行排名 是使用浏览行为的组合来确定的 网站上的用户数、唯一身份访问者的数量和网页浏览量。更详细地说,唯一身份访问者是 在给定日期访问网站的唯一用户数, 和 pageviews 是用户 URL 请求的总数 网站。但是,对同一网站的多个请求 在同一天被计为一次综合浏览量。网站 独立访问者和综合浏览量的最高组合 排名最高

OpenDataLab 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录