QuyenAnhDE/Diseases_Symptoms

github2024-09-11 更新2024-09-12 收录

下载链接：

https://github.com/mshaadk/Fine-tuning-GPT2-Medical-Data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含各种疾病及其症状的信息。

This dataset contains information on various diseases and their corresponding symptoms.

创建时间：

2024-09-11

原始信息汇总

SmallMedLM: Fine-Tuning GPT-2 for Medical Data

概述

该项目涉及在一个包含疾病和症状的数据集上微调GPT-2模型（distilgpt2）。目标是训练一个能够生成与医疗条件及其症状相关文本的语言模型。

该项目在Google Colab笔记本中实现，涵盖数据加载、预处理、模型训练和评估。最终模型被保存，并可用于根据输入查询生成医疗相关文本。

设置

该项目所需的Python包包括：

torch
torchtext
transformers
sentencepiece
pandas
tqdm
datasets

可以使用以下命令安装这些包：

python !pip install torch torchtext transformers sentencepiece pandas tqdm datasets

数据准备

加载数据：使用的数据集是QuyenAnhDE/Diseases_Symptoms，其中包含各种疾病及其症状的信息。
预处理数据：症状被格式化为逗号分隔的字符串，以便于处理。
创建数据集类：定义了一个自定义的LanguageDataset类，用于以适合GPT-2训练的格式处理数据。

模型训练

模型选择：使用distilgpt2模型，这是GPT-2的一个较小且更快的版本，用于微调。
训练循环：训练过程涉及使用CrossEntropyLoss函数和Adam优化器更新模型的权重。每个epoch都会记录训练和验证损失。
参数：
- 批量大小：8
- 学习率：5e-4
- 训练轮数：10
设备配置：模型训练可以在GPU、MPS或CPU上运行，具体取决于可用硬件。

生成预测

模型训练完成后，可以根据输入查询生成文本。例如，给定输入字符串“Kidney Failure”，模型会生成相关文本。

python input_str = "Kidney Failure" input_ids = tokenizer.encode(input_str, return_tensors=pt).to(device)

output = model.generate( input_ids, max_length=20, num_return_sequences=1, do_sample=True, top_k=8, top_p=0.95, temperature=0.5, repetition_penalty=1.2 )

decoded_output = tokenizer.decode(output[0], skip_special_tokens=True) print(decoded_output)

使用

克隆仓库：

bash git clone https://github.com/mshaadk/Fine-tuning-GPT2-Medical-Data.git

打开Colab笔记本：
- 将笔记本上传到Google Colab。
- 运行每个单元格以执行代码。
加载和使用模型：
- 使用保存的模型文件（SmallMedLM.pt）进行预测或进一步训练。

许可证

该项目根据MIT许可证授权。

联系

如有任何问题或建议，请随时联系Mohamed Shaad。

搜集汇总

数据集介绍

构建方式

在构建Diseases_Symptoms数据集时，首先从`QuyenAnhDE/Diseases_Symptoms`源加载了包含多种疾病及其症状的信息。随后，对症状数据进行了预处理，将其格式化为逗号分隔的字符串，以便于后续处理。此外，定义了一个自定义的`LanguageDataset`类，以适应GPT-2模型的训练需求。这一过程确保了数据的高效处理和模型的有效训练。

特点

Diseases_Symptoms数据集的显著特点在于其专注于疾病与症状的关联，为医疗领域的语言模型训练提供了丰富的语料。该数据集经过精心预处理，确保了症状描述的清晰性和一致性，从而提高了模型生成文本的准确性和相关性。此外，数据集的结构设计使得其能够无缝对接GPT-2模型的训练流程，为医疗文本生成提供了坚实的基础。

使用方法

使用Diseases_Symptoms数据集进行模型训练时，首先需克隆相关代码库并上传至Google Colab。随后，按照提供的Colab笔记本逐个运行代码单元，完成数据加载、预处理、模型训练及评估。训练完成后，可使用保存的模型文件（如`SmallMedLM.pt`）进行文本生成或进一步训练。通过输入特定疾病名称，模型能够生成与之相关的详细症状描述，为医疗领域的文本生成应用提供了便捷的解决方案。

背景与挑战

背景概述

Diseases_Symptoms数据集是由QuyenAnhDE创建，旨在支持基于GPT-2模型的医学数据微调项目。该数据集包含了多种疾病及其症状的信息，通过将症状格式化为逗号分隔的字符串，便于模型处理。此数据集的主要研究目标是训练一个能够生成与医学条件及其症状相关文本的语言模型。通过使用Google Colab进行数据加载、预处理、模型训练和评估，研究人员能够有效地利用该数据集进行医学文本生成任务。该数据集的创建不仅推动了医学自然语言处理领域的发展，也为相关研究提供了宝贵的资源。

当前挑战

Diseases_Symptoms数据集在构建和应用过程中面临多项挑战。首先，数据集的预处理需要将症状信息转换为适合GPT-2模型输入的格式，这要求对原始数据进行精细的处理和格式化。其次，模型训练过程中，选择合适的模型架构（如distilgpt2）和优化参数（如学习率、批次大小等）是关键，以确保模型能够在有限的资源下高效训练。此外，生成预测文本时，如何控制生成文本的质量和相关性，避免生成不准确或误导性的信息，也是一个重要的挑战。最后，数据集的规模和多样性可能限制了模型的泛化能力，需要进一步扩展和丰富数据集以提升模型的性能。

常用场景

经典使用场景

在医疗领域，Diseases_Symptoms数据集的经典使用场景主要集中在疾病与症状的关联分析上。通过该数据集，研究人员能够训练语言模型，使其能够根据输入的疾病名称生成相关的症状描述。例如，输入'肾衰竭'，模型可以生成与之相关的症状文本，如'尿量减少、水肿、疲劳'等。这种应用不仅有助于医疗专业人员快速获取疾病信息，还能为患者提供初步的自我诊断参考。

实际应用

在实际应用中，Diseases_Symptoms数据集被广泛用于医疗信息系统中，以支持自动化的疾病诊断和症状预测。例如，医院和诊所可以利用该数据集训练的模型，为医生提供实时的症状分析和疾病预测服务。此外，患者也可以通过在线平台输入症状，获取可能的疾病信息，从而提高自我诊断的准确性和效率。这种应用极大地提升了医疗服务的智能化水平。

衍生相关工作

基于Diseases_Symptoms数据集，衍生了一系列相关的经典工作。例如，研究人员利用该数据集训练的模型，进一步开发了疾病预测系统，能够根据患者的症状历史预测未来可能发生的疾病。此外，还有工作专注于优化模型的生成效果，使其在生成症状描述时更加准确和自然。这些衍生工作不仅丰富了医疗AI的应用场景，还推动了相关技术的不断进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集