five

avaliev/chat_doctor

收藏
Hugging Face2024-03-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/avaliev/chat_doctor
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由ChatDoctor项目中的三个数据源组成。包括来自HealthCareMagic.com的10万条真实患者与医生的对话,来自icliniq.com的1万条真实对话,以及由ChatGPT生成的5千条患者与医生的对话(未包含在数据集中)。数据集主要用于医疗领域的问答任务,语言为英语。

该数据集由ChatDoctor项目中的三个数据源组成。包括来自HealthCareMagic.com的10万条真实患者与医生的对话,来自icliniq.com的1万条真实对话,以及由ChatGPT生成的5千条患者与医生的对话(未包含在数据集中)。数据集主要用于医疗领域的问答任务,语言为英语。
提供机构:
avaliev
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别: 问答
  • 语言: 英语
  • 标签: 医疗
  • 数据集名称: ChatDoctor
  • 数据规模: 100K<n<1M

数据来源

  • HealthCareMagic-100k: 100k真实患者与医生的对话
  • icliniq-10k: 10k真实患者与医生的对话
  • GenMedGPT-5k: 5k由ChatGPT生成的患者与医生的对话(未包含在数据集中,可手动添加)

数据样本

json { "instruction": "If you are a doctor, please answer the medical questions based on the patients description.", "input": "I woke up this morning feeling the whole room is spinning when i was sitting down. I went to the bathroom walking unsteadily, as i tried to focus i feel nauseous. I try to vomit but it wont come out.. After taking panadol and sleep for few hours, i still feel the same.. By the way, if i lay down or sit down, my head do not spin, only when i want to move around then i feel the whole world is spinning.. And it is normal stomach discomfort at the same time? Earlier after i relieved myself, the spinning lessen so i am not sure whether its connected or coincidences.. Thank you doc!", "output": "Hi, Thank you for posting your query. The most likely cause for your symptoms is benign paroxysmal positional vertigo (BPPV), a type of peripheral vertigo. In this condition, the most common symptom is dizziness or giddiness, which is made worse with movements. Accompanying nausea and vomiting are common. The condition is due to problem in the ear, and improves in a few days on own. Betahistine tablets would help relieve your symptoms. Doing vestibular rehabilitation or adaptation exercises would prevent the recurrence of these symptoms. An ENT evaluation would also help. I hope it helps. Best wishes, Chat Doctor." }

搜集汇总
数据集介绍
main_image_url
构建方式
在医疗对话生成领域,ChatDoctor数据集的构建体现了多源数据融合的策略。该数据集整合了来自HealthCareMagic平台的十万条真实医患对话记录,以及从icliniq平台采集的一万条真实交流数据,确保了语料的临床真实性与多样性。值得注意的是,为避免大型语言模型生成数据可能引入的偏差,原始研究中的五千条合成对话未被纳入,但研究者保留了手动添加的灵活性,从而在数据纯净度与扩展性之间取得了平衡。
特点
ChatDoctor数据集的核心特点在于其高度的专业性与结构化表征。所有对话均以标准化的JSON格式呈现,包含指令、患者描述输入及医生专业回复输出三个关键字段,便于模型训练与评估。数据覆盖广泛的临床症状与诊疗场景,从常见病症到复杂医疗咨询,语言以英文为主,为医疗自然语言处理任务提供了高质量的监督信号。其规模介于十万至百万条之间,属于中等规模语料,兼具可管理性与代表性。
使用方法
该数据集主要应用于医疗问答系统的训练与微调,尤其适合基于指令的生成式模型开发。使用者可依据标准格式加载数据,将'instruction'与'input'字段作为模型输入,'output'字段作为目标输出,进行有监督学习。研究人员亦可将其用于评估医疗对话系统的临床准确性、语言流畅性及伦理合规性。通过HuggingFace平台,用户能便捷访问并整合至现有流程,促进医疗人工智能技术的迭代与验证。
背景与挑战
背景概述
在医疗人工智能领域,构建能够理解并回应患者咨询的对话系统一直是研究热点。ChatDoctor数据集由研究人员Yunxiang Li等人于2023年创建,其核心目标是通过整合真实医患对话与生成式语言模型的数据,推动医疗问答系统的智能化发展。该数据集融合了来自HealthCareMagic.com的十万条真实对话及iCliniq.com的一万条记录,旨在解决医疗资源分配不均、医生负担过重等现实问题,为后续医疗大语言模型的微调与评估提供了关键资源,显著提升了模型在诊断建议、症状解释等方面的专业性与可靠性。
当前挑战
ChatDoctor数据集面临的挑战主要体现在两个方面:在领域问题层面,医疗问答任务需处理高度专业、模糊且多样化的患者描述,模型必须准确理解症状、病史及医学术语,同时避免误诊风险,这对自然语言理解的深度与医学知识融合提出了严峻考验;在构建过程中,数据来源的多样性与质量把控成为难点,真实对话涉及隐私保护与脱敏处理,而生成式数据则需确保医学准确性,避免引入语言模型的幻觉或偏见,这些因素共同增加了数据清洗、标注与验证的复杂性。
常用场景
经典使用场景
在医疗人工智能领域,ChatDoctor数据集为构建和优化医疗对话系统提供了关键资源。该数据集整合了来自HealthCareMagic和icliniq平台的真实医患对话,涵盖了广泛的临床症状描述与专业诊断回应,使得研究人员能够基于真实世界交互数据训练模型。经典使用场景涉及利用这些对话对大型语言模型进行监督微调,以生成符合医学规范的回应,模拟医生在诊断咨询中的推理过程,从而提升模型在理解患者主诉、提供初步建议方面的能力。
解决学术问题
ChatDoctor数据集主要解决了医疗自然语言处理中数据稀缺与质量参差不齐的学术挑战。通过提供大规模、高质量的医患对话实例,该数据集支持研究者在医疗问答、症状诊断、患者咨询自动化等方向开展深入探索。其意义在于促进了医疗领域专用语言模型的发展,帮助模型克服通用语言模型在医学术语、临床逻辑上的不足,为构建可靠、安全的医疗辅助工具奠定了数据基础,推动了人工智能在临床决策支持中的应用研究。
衍生相关工作
围绕ChatDoctor数据集,衍生了一系列经典研究工作。例如,原始研究通过微调LLaMA模型构建了ChatDoctor医疗聊天模型,验证了领域适应训练的有效性。后续工作进一步探索了多轮对话建模、医学知识增强、以及结合电子健康记录进行诊断预测等方向。这些研究不仅拓展了数据集的利用维度,还催生了更多开源医疗对话模型和评估基准,持续推动着医疗人工智能技术向更精准、更可靠的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作