ChatDoctor

github2023-03-01 更新2025-02-07 收录

下载链接：

https://github.com/Kent0n-Li/ChatDoctor

下载链接

链接失效反馈

资源简介：

ChatDoctor数据集的发布主要旨在解决现有大型语言模型在医学知识领域的局限性。该数据集包含了11.5万条英文对话样本，其中包括从网站上获取的真实患者与医生之间的对话，以及模型生成的对话和疾病数据库信息。通过使用该数据集进行微调，模型在理解患者需求和提供建议方面的能力得到了显著提升。

The release of the ChatDoctor dataset primarily aims to address the limitations of existing large language models in the medical knowledge domain. The dataset contains 115,000 English conversation samples, including real dialogues between patients and doctors obtained from websites, as well as generated dialogues and disease database information. By fine-tuning models with this dataset, their ability to understand patient needs and provide recommendations has been significantly enhanced.

提供机构：

University of Texas Southwestern Medical Center et al.

创建时间：

2023-03-01

原始信息汇总

ChatDoctor 数据集概述

数据集基本信息

名称: ChatDoctor
类型: 医疗对话数据集
开发者: Yunxiang Li, Zihan Li, Kai Zhang, Ruilong Dan, Steve Jiang, You Zhang
机构:
- UT Southwestern Medical Center, USA
- University of Illinois at Urbana-Champaign, USA
- Ohio State University, USA
- Hangzhou Dianzi University, China
许可证: Apache 2.0
编程语言: Python 3.9+
相关论文: ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge

数据集内容

1. 医疗对话数据

HealthCareMagic-100k: 来自HealthCareMagic.com的10万条真实医患对话。
- 下载链接: HealthCareMagic-100k
icliniq-10k: 来自icliniq.com的1万条真实医患对话。
- 下载链接: icliniq-10k
GenMedGPT-5k: 由ChatGPT生成的5千条医患对话。
- 下载链接: GenMedGPT-5k
疾病数据库: format_dataset.csv
基础对话能力数据: Stanford Alpaca数据。
- 下载链接: Alpaca link

2. 模型权重

下载链接: ChatDoctor Checkpoints

数据集特点

数据来源: 真实医患对话和生成对话相结合。
数据处理: 手动和自动过滤，去除身份信息，纠正语法错误。
多样性: 包含多种疾病和症状的描述，提高模型的泛化能力。

应用场景

医疗问答: 患者可以通过ChatDoctor模型获取医疗建议。
学术研究: 用于医疗对话生成和自然语言处理研究。

使用限制

禁止商业用途: 由于基于LLaMA的非商业许可证，禁止任何商业用途。
禁止临床用途: 模型未获得医疗相关许可，不保证医疗诊断的完全正确性。

参考文献

bibtex @article{li2023chatdoctor, title={ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge}, author={Li, Yunxiang and Li, Zihan and Zhang, Kai and Dan, Ruilong and Jiang, Steve and Zhang, You}, journal={Cureus}, volume={15}, number={6}, year={2023}, publisher={Cureus} }

搜集汇总

数据集介绍

构建方式

ChatDoctor数据集的构建基于大规模的真实医患对话数据，主要来源于HealthCareMagic和icliniq两个在线医疗咨询平台。研究人员从HealthCareMagic平台收集了约10万条真实的医患对话，并通过手动和自动过滤的方式去除身份信息并修正语法错误，形成了HealthCareMagic-100k数据集。此外，还从icliniq平台收集了约1万条对话用于模型性能评估。为了增强模型的对话能力，ChatDoctor还结合了斯坦福Alpaca数据集进行初步微调，并引入了包含700多种疾病的外部知识库，以提升模型在医学领域的专业性。

特点

ChatDoctor数据集的特点在于其真实性和多样性。数据集中的对话来源于实际的医患交流，涵盖了广泛的疾病和症状描述，能够反映真实的医疗场景。此外，数据集还结合了外部知识库，如Wikipedia和疾病数据库，使得模型能够基于权威的医学知识进行推理和回答。ChatDoctor模型不仅能够处理常见的医学问题，还能够通过不断学习优化其回答的准确性和个性化程度，从而为患者提供更为精准的医疗建议。

使用方法

使用ChatDoctor数据集时，研究人员可以通过微调预训练模型来适应特定的医学任务。数据集支持多种微调方式，包括全量微调和基于LoRA的低秩适应方法。用户可以通过提供的训练脚本，结合HealthCareMagic-100k或icliniq-10k数据集进行模型训练。训练完成后，模型可以通过简单的命令行工具进行推理，用户可以通过交互式界面与模型进行对话，模拟真实的医患交流场景。此外，ChatDoctor还支持基于外部知识库的自主知识检索功能，进一步提升模型在复杂医学问题上的表现。

背景与挑战

背景概述

ChatDoctor数据集由Yunxiang Li等研究人员于2023年创建，旨在通过基于Meta-AI的大型语言模型LLaMA，结合医学领域知识，开发一种能够模拟医患对话的智能医疗助手。该数据集的核心研究问题是如何利用自然语言处理技术，提升AI在医疗咨询中的准确性和实用性。数据集包含了来自HealthCareMagic和icliniq等平台的真实医患对话，涵盖了超过10万条对话记录。ChatDoctor的推出，不仅为医疗AI领域提供了宝贵的数据资源，还推动了智能医疗助手的研发进程，具有重要的学术和应用价值。

当前挑战

ChatDoctor数据集在构建和应用过程中面临多重挑战。首先，医患对话的多样性和复杂性使得模型在理解和生成准确回答时面临困难，尤其是在处理非结构化、口语化的患者描述时。其次，数据集的构建过程中，如何确保数据的隐私保护和匿名化处理，同时保持数据的多样性和真实性，是一个重要的技术难题。此外，尽管ChatDoctor在模拟医患对话方面取得了显著进展，但其输出的准确性和可靠性仍需进一步提升，尤其是在涉及复杂医疗诊断时，模型的表现仍存在局限性。这些挑战不仅影响了模型的临床应用，也对未来的研究方向提出了更高的要求。

常用场景

经典使用场景

ChatDoctor数据集在医学领域的自然语言处理研究中具有重要应用，尤其是在模拟医患对话的场景中。该数据集通过整合来自HealthCareMagic和iCliniq的真实医患对话，为研究人员提供了一个丰富的语料库，用于训练和评估医疗对话模型。这些对话涵盖了广泛的医学主题，能够帮助模型更好地理解患者的症状描述，并生成符合医学规范的回应。

实际应用

在实际应用中，ChatDoctor数据集为开发智能医疗助手提供了坚实的基础。通过模拟真实的医患对话，该数据集能够帮助构建个性化的医疗咨询系统，为患者提供初步的健康建议。尽管目前模型尚未达到100%的准确性，但其在辅助诊断和信息检索方面的潜力已得到初步验证，未来有望在远程医疗和健康管理领域发挥更大作用。

衍生相关工作

ChatDoctor数据集衍生了多项相关研究工作，特别是在基于LLaMA模型的医疗对话系统优化方面。例如，研究人员利用该数据集开发了基于知识检索的自主对话系统，通过关键词提取和知识库匹配，提升了模型的回答准确性和可信度。此外，该数据集还被用于探索低资源环境下的模型微调方法，如LoRA技术，为医疗AI的轻量化部署提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集