thbndi/Mimic4Dataset

Name: thbndi/Mimic4Dataset
Creator: thbndi
Published: 2024-04-10 12:57:35
License: 暂无描述

Hugging Face2024-04-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/thbndi/Mimic4Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Mimic-IV数据集是通过执行https://github.com/healthylaife/MIMIC-IV-Data-Pipeline上的Pipeline生成的数据。

提供机构：

thbndi

原始信息汇总

数据集概述

数据集名称

名称: Mimic-IV

数据集生成

生成方式: 通过执行位于 https://github.com/healthylaife/MIMIC-IV-Data-Pipeline 的Pipeline生成数据。

数据集使用函数

函数签名: python load_dataset(thbndi/Mimic4Dataset, task, mimic_path=mimic_data, config_path=config_file, encoding=encod, generate_cohort=gen_cohort, val_size=size, cache_dir=cache)

参数说明

task (string)
- 描述: 指定使用数据集的任务。
- 默认值: "Mortality"
- 可能值: Phenotype, Length of Stay, Readmission, Mortality
mimic_path (string)
- 描述: 用户机器上Mimic-IV原始数据的完整路径。
- 注意: 需要提供Mimic-IV数据存储的适当路径，路径应以Mimic的版本结束（例如：mimiciv/2.2）。支持的版本：2.2和1.0。
config_path (string) 可选
- 描述: 用于群体生成选择的配置文件路径（更多信息请参见/config/readme.md）。
- 默认值: config文件夹中提供的配置文件。
encoding (string) 可选
- 描述: 特征的数据编码选项。
- 选项: "concat", "aggreg", "tensor", "raw", "text"
- 默认值: "concat"
- 注意: 选择以下选项之一进行数据编码：
  - "concat": 将独热编码的诊断、人口统计数据向量和动态特征在每个测量时间点连接，形成高维特征向量。
  - "aggreg": 将独热编码的诊断、人口统计数据向量和动态特征连接，其中每个item_id被替换为测量时间点的平均值，形成降维特征向量。
  - "tensor": 将每个特征表示为2D数组。标签、人口统计数据(DEMO)、诊断(COND)、药物(MEDS)、程序(PROC)、图表/实验室事件(CHART/LAB)和输出事件数据(OUT)分别有单独的数组。动态特征表示为2D数组，其中每行包含特定时间点的值。
  - "raw": 提供来自Pipeline的群体，无需任何编码，适用于自定义数据处理。
  - "text": 将诊断表示为适合BERT或其他类似文本模型的文本。
generate_cohort (bool) 可选
- 描述: 确定是否从Mimic-IV数据生成新群体。
- 默认值: True
- 注意: 设置为True以生成群体，或设置为False以跳过群体生成。
val_size, test_size (float) 可选
- 描述: 训练期间用于验证的数据集比例。
- 默认值: 验证大小为0.1，测试大小为0.2。
- 注意: 可以设置为0。
cache_dir (string) 可选
- 描述: 处理后的数据集将被缓存的目录。
- 注意: 为每种编码类型提供缓存目录可以避免更改编码类型时的错误。

示例使用

示例1: 使用默认设置加载数据集。
示例2: 使用自定义设置加载数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集