thbndi/Mimic4Dataset
收藏Hugging Face2024-04-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/thbndi/Mimic4Dataset
下载链接
链接失效反馈官方服务:
资源简介:
Mimic-IV数据集是通过执行https://github.com/healthylaife/MIMIC-IV-Data-Pipeline上的Pipeline生成的数据。
Mimic-IV数据集是通过执行https://github.com/healthylaife/MIMIC-IV-Data-Pipeline上的Pipeline生成的数据。
提供机构:
thbndi
原始信息汇总
数据集概述
数据集名称
- 名称: Mimic-IV
数据集生成
- 生成方式: 通过执行位于 https://github.com/healthylaife/MIMIC-IV-Data-Pipeline 的Pipeline生成数据。
数据集使用函数
- 函数签名: python load_dataset(thbndi/Mimic4Dataset, task, mimic_path=mimic_data, config_path=config_file, encoding=encod, generate_cohort=gen_cohort, val_size=size, cache_dir=cache)
参数说明
-
task (string)
- 描述: 指定使用数据集的任务。
- 默认值: "Mortality"
- 可能值: Phenotype, Length of Stay, Readmission, Mortality
-
mimic_path (string)
- 描述: 用户机器上Mimic-IV原始数据的完整路径。
- 注意: 需要提供Mimic-IV数据存储的适当路径,路径应以Mimic的版本结束(例如:mimiciv/2.2)。支持的版本:2.2和1.0。
-
config_path (string) 可选
- 描述: 用于群体生成选择的配置文件路径(更多信息请参见/config/readme.md)。
- 默认值: config文件夹中提供的配置文件。
-
encoding (string) 可选
- 描述: 特征的数据编码选项。
- 选项: "concat", "aggreg", "tensor", "raw", "text"
- 默认值: "concat"
- 注意: 选择以下选项之一进行数据编码:
- "concat": 将独热编码的诊断、人口统计数据向量和动态特征在每个测量时间点连接,形成高维特征向量。
- "aggreg": 将独热编码的诊断、人口统计数据向量和动态特征连接,其中每个item_id被替换为测量时间点的平均值,形成降维特征向量。
- "tensor": 将每个特征表示为2D数组。标签、人口统计数据(DEMO)、诊断(COND)、药物(MEDS)、程序(PROC)、图表/实验室事件(CHART/LAB)和输出事件数据(OUT)分别有单独的数组。动态特征表示为2D数组,其中每行包含特定时间点的值。
- "raw": 提供来自Pipeline的群体,无需任何编码,适用于自定义数据处理。
- "text": 将诊断表示为适合BERT或其他类似文本模型的文本。
-
generate_cohort (bool) 可选
- 描述: 确定是否从Mimic-IV数据生成新群体。
- 默认值: True
- 注意: 设置为True以生成群体,或设置为False以跳过群体生成。
-
val_size, test_size (float) 可选
- 描述: 训练期间用于验证的数据集比例。
- 默认值: 验证大小为0.1,测试大小为0.2。
- 注意: 可以设置为0。
-
cache_dir (string) 可选
- 描述: 处理后的数据集将被缓存的目录。
- 注意: 为每种编码类型提供缓存目录可以避免更改编码类型时的错误。
示例使用
- 示例1: 使用默认设置加载数据集。
- 示例2: 使用自定义设置加载数据集。



