Pediatric Sepsis Data Challenge Dataset

github2024-11-21 更新2024-11-28 收录

下载链接：

https://github.com/Kamaleswaran-Lab/The-2024-Pediatric-Sepsis-Challenge

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个合成数据集，源自乌干达的真实医院数据，用于预测儿科脓毒症病例的住院死亡率。数据集包括训练数据文件SyntheticData_Training.csv和数据字典SyntheticData_DataDictionary_V1.docx。

This is a synthetic dataset derived from real hospital data in Uganda, intended for predicting in-hospital mortality of pediatric sepsis cases. The dataset includes the training data file SyntheticData_Training.csv and the data dictionary SyntheticData_DataDictionary_V1.docx.

创建时间：

2024-10-29

原始信息汇总

Pediatric Sepsis Data Challenge: In-Hospital Mortality Prediction Task

数据集概述

数据类型: 合成数据
数据来源: 基于乌干达真实医院数据
数据文件:
- 训练数据: SyntheticData_Training.csv
- 数据字典: SyntheticData_DataDictionary_V1.docx

目标

主要任务: 开发一个开源算法，用于预测儿童脓毒症的住院死亡率。
数据使用: 算法应仅使用提供的数据集变量进行预测。

数据和代码要求

提交内容:
- 训练代码: 所有用于训练模型的脚本和代码。
- 训练模型: 从代码生成的模型文件。
编程语言:
- 推荐: Python
- 接受: R
- 不接受: Matlab
代码环境: 代码将在容器化环境中运行。
执行时间:
- 训练: 最多24小时
- 验证和测试: 8小时
自主执行: 代码应能从开始到结束自动执行，无需人工干预。
- 依赖项: 列出所有依赖项在 requirements.txt 或兼容的环境配置文件中。
- 预处理: 包括任何数据预处理或转换在提交的代码中。

提交指南和限制

提交次数: 每个团队最多可提交3次。
评估: 每个提交将在隐藏的评估集上进行评估，以确保评分公正。
模型评估: 仅评估每个训练阶段的最终模型。
代码安全: 团队应在挑战期间将代码保存在私有仓库中。
公开发布: 挑战结束后，所有最终解决方案必须公开共享，以促进可重复性和透明度。
- 要求:
  - 完整的源代码和训练模型。
  - 详细的README文件，包含复现说明。
  - 开源许可证（如MIT, BSD），指定使用和再分发权利。

提交组件

源代码:
- 数据预处理脚本
- 模型训练脚本
- 测试数据预测脚本
文档:
- 详细的README文件，包含运行代码的说明、特定假设或变量处理、模型或算法的独特功能。
环境设置:
- requirements.txt 列出依赖项
- (可选) Dockerfile 用于特殊环境配置
模型文件: 训练模型保存为标准格式（如 .pkl 或 .h5）

测试和评估标准

评估指标:
1. 在假阳性率（FPR）≤ 0.20时的真阳性率（TPR）
2. 阳性预测值（PPV）
3. ROC曲线下面积（AUC-ROC）
4. 平衡准确率
5. F1-Score

模型偏好

优化预测能力: 高预测准确性，依赖变量少。
资源约束: 适用于计算和临床资源有限的环境的简约模型。

最终说明

自主执行: 确保所有提交组件在云端容器中从开始到结束自动运行。
排行榜: 分数将根据最佳成绩在排行榜上更新。
开源合规: 确保最终提交得到适当文档化并公开发布。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于乌干达真实医院的临床数据，通过合成技术生成，旨在模拟真实世界中的儿科脓毒症病例。合成数据集SyntheticData_Training.csv作为训练数据，而SyntheticData_DataDictionary_V1.docx则提供了详细的数据字典，确保了数据的可解释性和可用性。此数据集的构建严格遵循了特征约束，即所有预测算法必须仅使用提供的变量，从而确保了模型的泛化能力和实际应用中的可靠性。

特点

该数据集的主要特点在于其合成性质，这不仅保护了患者的隐私，还提供了丰富的数据多样性，有助于模型在不同情境下的表现。此外，数据集的设计考虑到了资源有限的环境，特别强调了模型的简洁性和高效性，使其能够在计算资源受限的医疗环境中实际应用。数据集还包含了详细的评估标准，如真阳性率、阳性预测值、ROC曲线下面积等，确保了模型评估的全面性和公正性。

使用方法

使用该数据集时，参与者需提交包括数据预处理、模型训练和测试数据预测的完整代码。代码必须能够在容器化环境中自主运行，且训练时间不得超过24小时。提交的模型文件需保存为标准格式，如.pkl或.h5。此外，参与者还需提供详细的README文件，说明代码运行方式、模型假设和独特特性。最终，所有解决方案需在挑战结束后公开发布，以促进透明度和可重复性。

背景与挑战

背景概述

在儿科重症监护领域，脓毒症（Sepsis）是导致儿童死亡的主要原因之一。为了应对这一严峻挑战，Pediatric Sepsis Data Challenge Dataset应运而生，旨在通过预测住院期间儿童脓毒症的死亡率，提升早期检测模型的准确性，从而优化资源分配并改善临床结果。该数据集由真实世界数据合成而来，主要研究人员和机构来自乌干达的医疗机构。其核心研究问题聚焦于开发一种开源算法，能够在低资源医疗环境中有效预测脓毒症患儿的住院死亡率。这一研究不仅填补了该领域的数据空白，还为全球范围内的儿科脓毒症管理提供了宝贵的参考。

当前挑战

Pediatric Sepsis Data Challenge Dataset在构建和应用过程中面临多项挑战。首先，数据集基于合成数据，尽管来源于真实世界，但仍需确保其代表性和可靠性。其次，预测模型需在资源受限的环境中运行，这对算法的效率和轻量化提出了高要求。此外，数据集的特征约束要求模型仅使用提供的变量进行预测，这限制了模型的灵活性。最后，评估模型的标准包括真阳性率、阳性预测值、ROC曲线下面积、平衡准确率和F1分数，这些指标的综合考量增加了模型开发的复杂性。

常用场景

经典使用场景

在儿科脓毒症数据挑战数据集中，经典的使用场景主要集中在预测住院期间的死亡率。研究者们利用提供的合成数据，训练和验证预测模型，以期在资源有限的医疗环境中实现早期检测和资源优化分配。通过分析患者的临床变量，模型能够识别出高风险病例，从而为临床医生提供及时的干预建议，改善患者的预后。

实际应用

在实际应用中，儿科脓毒症数据挑战数据集被广泛用于开发和优化预测算法，这些算法在资源有限的医院环境中具有显著的应用价值。通过这些算法，临床医生能够更早地识别出高风险患者，从而进行及时的干预和资源分配，提高患者的生存率和生活质量。此外，这些算法还可以用于培训和教育，提升医疗工作者的专业技能。

衍生相关工作

基于儿科脓毒症数据挑战数据集，衍生了许多相关的经典工作，包括开发新的预测模型、优化现有算法的性能以及探索不同变量对预测结果的影响。这些工作不仅推动了脓毒症预测技术的发展，还为其他疾病的预测研究提供了宝贵的经验和方法。此外，数据集的公开使用促进了跨学科的合作，加速了医疗数据科学领域的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集