five

MIMIC-Admission-Summary

收藏
github2024-09-04 更新2024-09-05 收录
下载链接:
https://github.com/BoyangGu1/MIMIC-Admission-Summary
下载链接
链接失效反馈
官方服务:
资源简介:
该项目开发了一个全面的简要医院课程总结数据集,用于训练和评估模型性能。

This project has developed a comprehensive and concise hospital course summary dataset for training and evaluating model performance.
创建时间:
2024-09-02
原始信息汇总

MIMIC-Admission-Summary 数据集概述

数据集简介

该数据集用于支持 Boyang Gu 的硕士论文,旨在通过训练多个模型实现医院病程简要总结的高性能。

数据集结构

数据集包括以下主要部分:

  • medcat_model:包含 MedCAT 模型及其相关文件。
  • physionet.org:包含 MIMIC-III 数据库文件。
  • quickumls_install:包含 QuickUMLS 安装文件。
  • umls-2024AA:包含 UMLS 2024AA 版本的文件。

数据集使用

数据预处理

  1. 激活环境: bash conda activate mimic_env

  2. 运行预处理脚本: bash python general_data_preparation.py python one_admission_data_prep.py

模型训练

监督微调(SFT)

  1. 激活环境: bash conda activate unsloth_env

  2. 运行训练脚本: bash python SFT_train.py SFT_training_paras/sft_para1.json

直接偏好优化(DPO)

  1. 准备拒绝摘要: bash conda activate vllm_env python DPO_rejected_prep.py --gpus 0 --csv_path dataset/mimic-iii/by_hpc/Meta-Llama-3.1-8B_hpc1_32768/train.csv --save_path DPO_rejected_summary/mimic-iii/by_hpc/sft_para3/train python DPO_rejected_prep.py --gpus 0 --csv_path dataset/mimic-iii/by_hpc/Meta-Llama-3.1-8B_hpc1_32768/val.csv --save_path DPO_rejected_summary/mimic-iii/by_hpc/sft_para3/val

  2. 运行训练脚本: bash conda activate unsloth_env python DPO_train.py DPO_training_paras/dpo_para1.json

模型推理

  1. 转换模型格式: bash conda activate unsloth_env python unsloth2vllm.py --model_name unsloth_SFT_models/sft_para1 --vllm_save_path vllm_SFT_models/sft_model1

  2. 运行推理脚本: bash conda activate vllm_env python vllm_inference.py --model_name vllm_SFT_models/sft_model1 --gpus 0 --csv_path dataset/mimic-iii/by_hpc/test.csv --prompt_path dataset/mimic-iii/by_hpc/Meta-Llama-3.1-8B_hpc1_32768/prompt.txt --save_path inference/mimic-iii/by_hpc/sft_para1

零样本推理

  1. 运行零样本推理脚本: bash conda activate vllm_env python vllm_zeroshot.py --gpus 0 --csv_path dataset/mimic-iii/by_hpc/test.csv --save_path inference/mimic-iii/by_hpc/zeroshot

计算指标

  1. 运行指标计算脚本: bash conda activate mimic_env python compute_metrics.py --ref_path MIMIC_project_data/dataset/mimic-iii/by_hpc/test.csv --cand_path inference/mimic-iii/by_hpc/sft_para1 --save_name sft_para1

数据集限制

由于 MIMIC 数据库的许可证限制,无法提供处理后的数据和模型。但提供了代码以重现报告中的结果。

搜集汇总
数据集介绍
main_image_url
构建方式
MIMIC-Admission-Summary数据集的构建基于MIMIC-III数据库,该数据库包含了大量临床记录。构建过程中,首先从MIMIC-III中提取患者入院信息,随后通过一系列预处理步骤,包括数据清洗、标准化和结构化,以确保数据的准确性和一致性。此外,数据集还整合了UMLS(统一医学语言系统)和MedCAT(医学概念注释工具),以增强医学术语的识别和注释,从而生成一个全面且高质量的入院总结数据集。
使用方法
使用MIMIC-Admission-Summary数据集时,首先需按照提供的安装指南配置环境,并下载必要的依赖项和模型。随后,用户可以通过执行一系列Python脚本进行数据预处理、模型训练和推理。数据集支持多种模型训练方法,如监督微调和直接偏好优化,用户可根据需求选择合适的训练参数。此外,数据集还提供了零样本推理和重写功能,以支持更复杂的应用场景。最后,用户可以通过计算BERTScore、MEDCON和ROUGE等指标来评估模型的性能。
背景与挑战
背景概述
MIMIC-Admission-Summary数据集由Boyang Gu在其硕士论文中创建,旨在为医院住院过程的简要总结提供一个综合数据集。该数据集的开发不仅推动了医疗文本自动摘要技术的发展,还训练了多个达到最先进性能的模型。通过整合MIMIC-III数据库和UMLS知识库,该数据集为研究人员提供了一个强大的工具,用于探索和优化医疗文本处理模型。其核心研究问题是如何高效且准确地生成住院过程的简要总结,这对医疗信息管理和患者护理具有重要意义。
当前挑战
MIMIC-Admission-Summary数据集在构建过程中面临多项挑战。首先,数据预处理阶段需要整合来自不同来源的医疗数据,确保数据的一致性和准确性。其次,模型训练过程中,如何在有限的医疗数据上实现高效的监督微调(SFT)和直接偏好优化(DPO)是一个技术难题。此外,零样本推理和少样本训练免费重写等技术的应用,也对模型的泛化能力和计算资源提出了高要求。最后,计算评估指标如BERTScore、MEDCON和ROUGE时,如何确保结果的可靠性和公正性也是一个重要的挑战。
常用场景
经典使用场景
MIMIC-Admission-Summary数据集在医疗信息学领域中,主要用于医院病程摘要的自动生成。通过整合MIMIC-III数据库的详细患者信息,该数据集为研究人员提供了一个丰富的资源,用于训练和评估各种自然语言处理模型,特别是那些旨在生成简洁且准确的医院病程摘要的模型。这些模型不仅能够帮助医生快速了解患者的病程,还能在临床决策支持系统中发挥重要作用。
解决学术问题
MIMIC-Admission-Summary数据集解决了医疗信息学中一个关键的学术问题,即如何从大量的临床数据中自动生成简洁且准确的病程摘要。这一问题的解决不仅提高了医疗数据的利用效率,还为临床决策支持系统提供了强有力的工具。此外,该数据集还推动了自然语言处理技术在医疗领域的应用,促进了相关算法和模型的创新与发展。
实际应用
在实际应用中,MIMIC-Admission-Summary数据集生成的病程摘要模型可以广泛应用于医院信息系统中,帮助医生快速浏览和理解患者的病程记录。这些摘要可以作为电子病历的一部分,提供给医生进行快速参考,从而提高诊疗效率。此外,这些模型还可以用于培训医学生和住院医师,帮助他们更好地理解和分析复杂的临床数据。
数据集最近研究
最新研究方向
在医疗信息处理领域,MIMIC-Admission-Summary数据集的最新研究方向主要集中在医院病程摘要的自动生成和模型训练上。该数据集通过整合MIMIC-III数据库的信息,为研究者提供了丰富的临床数据,从而推动了基于深度学习的病程摘要生成模型的开发。研究者们通过监督微调(SFT)和直接偏好优化(DPO)等技术,训练出了一系列达到最先进性能(SOTA)的模型。这些模型不仅在病程摘要的生成上表现出色,还在医疗文本的零样本推理和重写方面展示了潜力,为医疗信息处理的自动化和智能化提供了新的可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作