five

Pediatric Sepsis Data Challenge Dataset

收藏
github2024-11-21 更新2024-11-28 收录
下载链接:
https://github.com/Kamaleswaran-Lab/The-2024-Pediatric-Sepsis-Challenge
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个合成数据集,源自乌干达的真实医院数据,用于预测儿科脓毒症病例的住院死亡率。数据集包括训练数据文件SyntheticData_Training.csv和数据字典SyntheticData_DataDictionary_V1.docx。

This is a synthetic dataset derived from real hospital data in Uganda, intended for predicting in-hospital mortality of pediatric sepsis cases. The dataset includes the training data file SyntheticData_Training.csv and the data dictionary SyntheticData_DataDictionary_V1.docx.
创建时间:
2024-10-29
原始信息汇总

Pediatric Sepsis Data Challenge: In-Hospital Mortality Prediction Task

数据集概述

  • 数据类型: 合成数据
  • 数据来源: 基于乌干达真实医院数据
  • 数据文件:
    • 训练数据: SyntheticData_Training.csv
    • 数据字典: SyntheticData_DataDictionary_V1.docx

目标

  • 主要任务: 开发一个开源算法,用于预测儿童脓毒症的住院死亡率。
  • 数据使用: 算法应仅使用提供的数据集变量进行预测。

数据和代码要求

  • 提交内容:
    • 训练代码: 所有用于训练模型的脚本和代码。
    • 训练模型: 从代码生成的模型文件。
  • 编程语言:
    • 推荐: Python
    • 接受: R
    • 不接受: Matlab
  • 代码环境: 代码将在容器化环境中运行。
  • 执行时间:
    • 训练: 最多24小时
    • 验证和测试: 8小时
  • 自主执行: 代码应能从开始到结束自动执行,无需人工干预。
    • 依赖项: 列出所有依赖项在 requirements.txt 或兼容的环境配置文件中。
    • 预处理: 包括任何数据预处理或转换在提交的代码中。

提交指南和限制

  • 提交次数: 每个团队最多可提交3次。
  • 评估: 每个提交将在隐藏的评估集上进行评估,以确保评分公正。
  • 模型评估: 仅评估每个训练阶段的最终模型。
  • 代码安全: 团队应在挑战期间将代码保存在私有仓库中。
  • 公开发布: 挑战结束后,所有最终解决方案必须公开共享,以促进可重复性和透明度。
    • 要求:
      • 完整的源代码和训练模型。
      • 详细的README文件,包含复现说明。
      • 开源许可证(如MIT, BSD),指定使用和再分发权利。

提交组件

  • 源代码:
    • 数据预处理脚本
    • 模型训练脚本
    • 测试数据预测脚本
  • 文档:
    • 详细的README文件,包含运行代码的说明、特定假设或变量处理、模型或算法的独特功能。
  • 环境设置:
    • requirements.txt 列出依赖项
    • (可选) Dockerfile 用于特殊环境配置
  • 模型文件: 训练模型保存为标准格式(如 .pkl.h5

测试和评估标准

  • 评估指标:
    1. 在假阳性率(FPR)≤ 0.20时的真阳性率(TPR)
    2. 阳性预测值(PPV)
    3. ROC曲线下面积(AUC-ROC)
    4. 平衡准确率
    5. F1-Score

模型偏好

  • 优化预测能力: 高预测准确性,依赖变量少。
  • 资源约束: 适用于计算和临床资源有限的环境的简约模型。

最终说明

  • 自主执行: 确保所有提交组件在云端容器中从开始到结束自动运行。
  • 排行榜: 分数将根据最佳成绩在排行榜上更新。
  • 开源合规: 确保最终提交得到适当文档化并公开发布。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于乌干达真实医院的临床数据,通过合成技术生成,旨在模拟真实世界中的儿科脓毒症病例。合成数据集SyntheticData_Training.csv作为训练数据,而SyntheticData_DataDictionary_V1.docx则提供了详细的数据字典,确保了数据的可解释性和可用性。此数据集的构建严格遵循了特征约束,即所有预测算法必须仅使用提供的变量,从而确保了模型的泛化能力和实际应用中的可靠性。
特点
该数据集的主要特点在于其合成性质,这不仅保护了患者的隐私,还提供了丰富的数据多样性,有助于模型在不同情境下的表现。此外,数据集的设计考虑到了资源有限的环境,特别强调了模型的简洁性和高效性,使其能够在计算资源受限的医疗环境中实际应用。数据集还包含了详细的评估标准,如真阳性率、阳性预测值、ROC曲线下面积等,确保了模型评估的全面性和公正性。
使用方法
使用该数据集时,参与者需提交包括数据预处理、模型训练和测试数据预测的完整代码。代码必须能够在容器化环境中自主运行,且训练时间不得超过24小时。提交的模型文件需保存为标准格式,如.pkl或.h5。此外,参与者还需提供详细的README文件,说明代码运行方式、模型假设和独特特性。最终,所有解决方案需在挑战结束后公开发布,以促进透明度和可重复性。
背景与挑战
背景概述
在儿科重症监护领域,脓毒症(Sepsis)是导致儿童死亡的主要原因之一。为了应对这一严峻挑战,Pediatric Sepsis Data Challenge Dataset应运而生,旨在通过预测住院期间儿童脓毒症的死亡率,提升早期检测模型的准确性,从而优化资源分配并改善临床结果。该数据集由真实世界数据合成而来,主要研究人员和机构来自乌干达的医疗机构。其核心研究问题聚焦于开发一种开源算法,能够在低资源医疗环境中有效预测脓毒症患儿的住院死亡率。这一研究不仅填补了该领域的数据空白,还为全球范围内的儿科脓毒症管理提供了宝贵的参考。
当前挑战
Pediatric Sepsis Data Challenge Dataset在构建和应用过程中面临多项挑战。首先,数据集基于合成数据,尽管来源于真实世界,但仍需确保其代表性和可靠性。其次,预测模型需在资源受限的环境中运行,这对算法的效率和轻量化提出了高要求。此外,数据集的特征约束要求模型仅使用提供的变量进行预测,这限制了模型的灵活性。最后,评估模型的标准包括真阳性率、阳性预测值、ROC曲线下面积、平衡准确率和F1分数,这些指标的综合考量增加了模型开发的复杂性。
常用场景
经典使用场景
在儿科脓毒症数据挑战数据集中,经典的使用场景主要集中在预测住院期间的死亡率。研究者们利用提供的合成数据,训练和验证预测模型,以期在资源有限的医疗环境中实现早期检测和资源优化分配。通过分析患者的临床变量,模型能够识别出高风险病例,从而为临床医生提供及时的干预建议,改善患者的预后。
实际应用
在实际应用中,儿科脓毒症数据挑战数据集被广泛用于开发和优化预测算法,这些算法在资源有限的医院环境中具有显著的应用价值。通过这些算法,临床医生能够更早地识别出高风险患者,从而进行及时的干预和资源分配,提高患者的生存率和生活质量。此外,这些算法还可以用于培训和教育,提升医疗工作者的专业技能。
衍生相关工作
基于儿科脓毒症数据挑战数据集,衍生了许多相关的经典工作,包括开发新的预测模型、优化现有算法的性能以及探索不同变量对预测结果的影响。这些工作不仅推动了脓毒症预测技术的发展,还为其他疾病的预测研究提供了宝贵的经验和方法。此外,数据集的公开使用促进了跨学科的合作,加速了医疗数据科学领域的创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作