five

George B.Moody PhysioNet Challenge 2025 Dataset

收藏
arXiv2025-10-03 更新2025-10-04 收录
下载链接:
https://physionet.org/challenge/2025/
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是乔治·B·穆迪PhysioNet挑战2025的数据集,用于从心电图(ECG)中检测恰加斯病。数据集包括来自6个不同来源的378,624个12导联ECG记录,其中包含患者的恰加斯病标签。数据集旨在帮助研究人员开发算法,从心电图(ECG)中识别恰加斯病,以帮助优先对潜在的恰加斯病患者进行确诊和治疗。数据集已预处理,包括格式化、零填充截断、去除空信号、年龄去识别化等步骤,以提高数据质量。

This dataset is the official dataset for the George B. Moody PhysioNet Challenge 2025, which focuses on detecting Chagas disease from electrocardiograms (ECGs). It comprises 378,624 12-lead ECG records from 6 distinct sources, with Chagas disease status labels assigned to the corresponding patients. The dataset is designed to assist researchers in developing algorithms for identifying Chagas disease from ECGs, thereby helping prioritize suspected Chagas disease patients for definitive diagnosis and treatment. The dataset has undergone preprocessing procedures including signal formatting, zero-padding and truncation, removal of empty signals, and age de-identification to improve overall data quality.
提供机构:
Emory University
创建时间:
2025-10-03
搜集汇总
数据集介绍
main_image_url
构建方式
在心血管疾病筛查领域,该数据集通过整合六个不同来源的12导联心电图记录构建而成。核心训练集包含来自巴西CODE-15%数据库的33.5万条患者自报标签数据、SaMi-Trop队列的完全经血清验证的恰加斯心肌病患者数据,以及德国PTB-XL数据库的阴性对照数据。为增强模型鲁棒性,对私有验证集和测试集进行了数据增强处理,包括添加噪声模拟、设备滤波器模拟和重采样等技术,最终形成包含37.8万条记录的多源异构数据集。
使用方法
该数据集专为算法开发者在受限医疗场景下的模型优化而设计。使用时应重点考虑评估指标的特殊性:算法需在固定5%的血清检测容量约束下,最大化识别恰加斯病阳性患者。开发者需提交完整训练代码和容器化模型,通过官方验证框架在三个隐藏测试集上进行泛化能力评估。典型工作流程包括数据标准化处理、多源数据联合训练,以及针对资源受限场景的排序优化策略。
背景与挑战
背景概述
查加斯病作为由克氏锥虫引发的热带寄生虫病,在拉丁美洲地区呈现高度地方性流行态势,全球感染人数超过800万。乔治·B·穆迪PhysioNet挑战赛2025由埃默里大学、乌普萨拉大学等跨机构研究团队主导,聚焦于通过十二导联心电图实现疾病早期筛查。该数据集整合六大数据源的378,624条心电图记录,创新性地采用弱标签与强标签相结合的标注策略,通过数据增强技术提升模型鲁棒性,将机器学习任务重构为符合实际医疗资源限制的分诊问题。
当前挑战
在领域问题层面,查加斯病心电图筛查面临临床表现异质性挑战,慢性期患者可能呈现亚临床状态导致特征提取困难;模型泛化性受限于不同采集设备与人群分布的差异性,如测试集在ELSA-Brasil数据集上性能下降达64%。数据构建过程中需协调多中心异构数据,包括处理400-1000Hz采样频率差异、平衡血清学验证数据与自报告数据的标注质量,并通过过采样与噪声注入技术维持2%的疾病阳性率以模拟真实流行病学场景。
常用场景
经典使用场景
在热带病筛查领域,该数据集通过整合多源心电图记录与恰加斯病标签,为机器学习模型开发提供了标准化测试平台。其经典应用场景聚焦于利用12导联心电图数据训练分类算法,通过弱标签的大规模数据与强标签的小样本数据相结合,有效模拟真实医疗环境中数据不均衡的挑战。这种设计使研究者能够系统评估模型在资源受限场景下的泛化能力,为自动化疾病筛查奠定技术基础。
解决学术问题
该数据集针对恰加斯病筛查中的关键学术难题提供了突破性解决方案。通过构建包含自我报告与血清学验证的双重标签体系,有效解决了医疗数据标注噪声问题;其创新的评估指标将机器学习任务重构为分诊优化问题,突破了传统分类模型在资源受限场景下的应用瓶颈。这些设计显著提升了模型在低流行率地区的临床适用性,为热带病筛查研究提供了新的方法论范式。
实际应用
在公共卫生实践层面,该数据集支撑的筛查系统可直接应用于恰加斯病流行地区的基层医疗场景。通过分析低成本、易获取的心电图信号,系统能优先识别高风险患者转诊进行血清学确认,极大缓解了检测资源分配压力。这种基于心电图的分诊策略已在巴西等国的社区筛查中验证可行性,为改善疾病早期诊断率提供了可扩展的技术路径。
数据集最近研究
最新研究方向
在恰加斯病心电图筛查领域,最新研究聚焦于开发资源受限环境下的智能分诊系统。2025年PhysioNet挑战赛创新性地引入基于血清检测能力的评估指标,将机器学习任务重新定义为在固定检测容量下的病例优先级排序问题。该研究整合了来自巴西多个中心的37.8万条12导联心电图数据,构建了包含弱标签大规模数据集与强标签小规模数据集的混合训练框架。前沿方法探索了基于Transformer-XLSTM的集成模型、视觉Transformer基础模型以及标签不确定性管理技术,旨在提升模型在未见数据源上的泛化能力。这项研究突破了传统心电图分析的局限,为资源匮乏地区提供了可行的筛查解决方案,有望将恰加斯病检测效率提升至随机检测的三倍以上。
相关研究论文
  • 1
    Detection of Chagas Disease from the ECG: The George B. Moody PhysioNet Challenge 2025Emory University · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作