knowrohit07/know_medical_dialogues

github2024-09-17 更新2024-09-18 收录

下载链接：

https://github.com/AmirAbuhani/LLMs_fineTuningLlama31_project

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于医疗对话，可能包含医疗相关的对话样本，用于训练和微调模型。

This dataset is designed for medical dialogue scenarios, potentially containing medical-related dialogue samples, and is utilized for the training and fine-tuning of models.

创建时间：

2024-09-17

原始信息汇总

数据集概述

数据集名称

knowrohit07/know_medical_dialogues

数据集描述

knowrohit07/know_medical_dialogues 数据集是一个包含患者和医生之间关于各种医疗话题的对话集合。该数据集包含 480 行样本，具有两列："instruction" 和 "answer"。

数据集用途

该数据集用于微调 Llama 3.1 模型，以适应特定的医疗对话任务。通过使用此数据集，模型可以学习并生成与医疗相关的对话内容。

数据集结构

行数: 480 行
列数: 2 列
列名:
- instruction: 对话的输入指令
- answer: 对话的输出回答

数据集示例

示例 1

Instruction: hey there i have had cold "symptoms" for over a week and had a low grade fever last week. for the past two days i have been feeling dizzy. should i contact my dr? should i see a dr
Answer: yes. protection. it is not enough symptoms to say that you are a suspect case of covid19; but, independently of this, if you have been in contact with a case, or you present persistent cough (with or without sputum), shortness of breath, wheezing, or you have a chronic disease like diabetes, hypertension, low immune system or cancer, should ask for medical attention. and use all the protection measures.

示例 2

Instruction: nervous about coronavirus. i am 26 years old and have high blood pressure. i am curious chances of me dieing if i contract the virus.
Answer: in brief: unknown but low based on current data it is low, likely less than 1-2%. however just because you are young doesn’t mean you cannot end up really sick. take care of yourself. social distancing, wash you hands, etc would you like to video or text chat with me?

数据集处理

数据加载: 使用 datasets 库加载数据集。
数据分割: 将数据集分为训练集、验证集和测试集，比例分别为 0.6、0.2 和 0.2。
数据预处理: 使用 Llama 的 tokenizer 对数据进行 tokenization，将文本转换为模型可处理的 token ID。

模型微调

模型: meta-llama/Meta-Llama-3.1-8B-Instruct
微调方法: 使用 QLoRA (Quantized Low-Rank Adaptation) 进行模型微调，以减少内存占用和计算负载。
训练参数: 包括 epoch 数、batch size、学习率等。

模型评估

评估方法: 使用 Cosine Similarity 方法评估模型生成的预测与真实标签之间的相似度。
评估结果:
- 验证集平均相似度得分: 0.5245
- 测试集平均相似度得分: 0.5294

模型部署

后端: 使用 FastAPI 和 Uvicorn 部署模型，提供文本生成接口。
前端: 使用 HTML、CSS 和 JavaScript 构建用户界面，与后端进行交互。

搜集汇总

数据集介绍

构建方式

该数据集know_medical_dialogues由knowrohit07在Hugging Face平台上创建，旨在收集医患之间的对话样本。这些对话涵盖了多种医疗主题，数据集包含480条记录，每条记录包含两个主要字段：'instruction'（指令）和'answer'（回答）。数据集的构建旨在为深度学习模型提供丰富的医患对话语料，以便进行微调训练，从而提高模型在医疗对话生成任务中的表现。

特点

know_medical_dialogues数据集的主要特点在于其专业性和实用性。首先，数据集中的对话内容直接来源于真实的医患交流，确保了信息的准确性和实用性。其次，数据集结构简单明了，仅包含两个关键字段，便于模型快速理解和处理。此外，数据集规模适中，既保证了训练效率，又提供了足够的多样性，使得模型能够学习到不同医疗场景下的对话模式。

使用方法

使用know_medical_dialogues数据集时，首先需要从Hugging Face平台下载数据集文件。随后，用户可以通过Python的datasets库加载数据集，并进行预处理，如分词和编码，以适应特定模型的输入要求。在模型训练阶段，数据集可以被分割为训练集、验证集和测试集，用于模型的微调训练和性能评估。最终，经过微调的模型可以应用于实际的医疗对话生成任务，提供更为精准和人性化的对话服务。

背景与挑战

背景概述

know_medical_dialogues数据集是由Amir Abu Hani、Wasim Abu Shahab和Ebrahim Ebrahim三位研究人员创建的，旨在支持医学对话领域的深度学习研究。该数据集包含480个样本，涵盖了患者与医生之间的对话，涉及多种医疗主题。通过使用该数据集，研究人员能够微调Llama 3.1模型，以提高其在医学对话生成任务中的表现。这一研究不仅有助于提升医疗对话系统的自然语言处理能力，还为相关领域的进一步研究提供了宝贵的资源。

当前挑战

know_medical_dialogues数据集在构建过程中面临多项挑战。首先，数据集的规模相对较小，仅包含480个样本，这可能导致模型在训练过程中出现过拟合现象。其次，医学对话的复杂性和专业性要求模型具备高度的语义理解和生成能力，这对模型的性能提出了更高的要求。此外，在微调过程中，研究人员需要处理内存不足的问题，通过使用量化技术（如QLoRA）来减少模型的内存占用。最后，数据集的多样性和覆盖范围有限，可能影响模型在不同医疗场景中的泛化能力。

常用场景

经典使用场景

know_medical_dialogues数据集在医疗对话系统中具有经典应用场景。该数据集收集了患者与医生之间的对话，涵盖多种医疗主题，为训练和微调医疗领域的对话模型提供了丰富的语料。通过使用此数据集，研究者可以构建和优化能够理解并生成医疗相关对话的AI模型，从而提升医疗问答系统的准确性和自然度。

实际应用

know_medical_dialogues数据集在实际应用中具有广泛潜力。例如，它可以用于开发智能医疗助手，帮助患者获取初步的医疗建议，减轻医生的工作负担。此外，该数据集还可用于构建医疗培训系统，模拟真实对话场景，提升医学生的沟通技巧。在远程医疗领域，基于此数据集的对话模型能够提供即时且准确的医疗咨询，改善患者的就医体验。

衍生相关工作

know_medical_dialogues数据集催生了多项相关研究工作。例如，研究者利用该数据集微调了Meta-Llama-3.1-8B-Instruct模型，显著提升了其在医疗对话生成任务中的表现。此外，基于此数据集的研究还推动了医疗对话系统的评估方法创新，如使用余弦相似度来量化生成文本与真实标签的语义相似性。这些工作不仅丰富了医疗AI的研究内容，也为实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集