MIMIC-Admission-Summary
收藏MIMIC-Admission-Summary 数据集概述
数据集简介
该数据集用于支持 Boyang Gu 的硕士论文,旨在通过训练多个模型实现医院病程简要总结的高性能。
数据集结构
数据集包括以下主要部分:
medcat_model:包含 MedCAT 模型及其相关文件。physionet.org:包含 MIMIC-III 数据库文件。quickumls_install:包含 QuickUMLS 安装文件。umls-2024AA:包含 UMLS 2024AA 版本的文件。
数据集使用
数据预处理
-
激活环境: bash conda activate mimic_env
-
运行预处理脚本: bash python general_data_preparation.py python one_admission_data_prep.py
模型训练
监督微调(SFT)
-
激活环境: bash conda activate unsloth_env
-
运行训练脚本: bash python SFT_train.py SFT_training_paras/sft_para1.json
直接偏好优化(DPO)
-
准备拒绝摘要: bash conda activate vllm_env python DPO_rejected_prep.py --gpus 0 --csv_path dataset/mimic-iii/by_hpc/Meta-Llama-3.1-8B_hpc1_32768/train.csv --save_path DPO_rejected_summary/mimic-iii/by_hpc/sft_para3/train python DPO_rejected_prep.py --gpus 0 --csv_path dataset/mimic-iii/by_hpc/Meta-Llama-3.1-8B_hpc1_32768/val.csv --save_path DPO_rejected_summary/mimic-iii/by_hpc/sft_para3/val
-
运行训练脚本: bash conda activate unsloth_env python DPO_train.py DPO_training_paras/dpo_para1.json
模型推理
-
转换模型格式: bash conda activate unsloth_env python unsloth2vllm.py --model_name unsloth_SFT_models/sft_para1 --vllm_save_path vllm_SFT_models/sft_model1
-
运行推理脚本: bash conda activate vllm_env python vllm_inference.py --model_name vllm_SFT_models/sft_model1 --gpus 0 --csv_path dataset/mimic-iii/by_hpc/test.csv --prompt_path dataset/mimic-iii/by_hpc/Meta-Llama-3.1-8B_hpc1_32768/prompt.txt --save_path inference/mimic-iii/by_hpc/sft_para1
零样本推理
- 运行零样本推理脚本: bash conda activate vllm_env python vllm_zeroshot.py --gpus 0 --csv_path dataset/mimic-iii/by_hpc/test.csv --save_path inference/mimic-iii/by_hpc/zeroshot
计算指标
- 运行指标计算脚本: bash conda activate mimic_env python compute_metrics.py --ref_path MIMIC_project_data/dataset/mimic-iii/by_hpc/test.csv --cand_path inference/mimic-iii/by_hpc/sft_para1 --save_name sft_para1
数据集限制
由于 MIMIC 数据库的许可证限制,无法提供处理后的数据和模型。但提供了代码以重现报告中的结果。




