five

ChatDoctor|医学对话数据集|语言模型数据集

收藏
github2023-03-01 更新2025-02-07 收录
医学对话
语言模型
下载链接:
https://github.com/Kent0n-Li/ChatDoctor
下载链接
链接失效反馈
资源简介:
ChatDoctor数据集的发布主要旨在解决现有大型语言模型在医学知识领域的局限性。该数据集包含了11.5万条英文对话样本,其中包括从网站上获取的真实患者与医生之间的对话,以及模型生成的对话和疾病数据库信息。通过使用该数据集进行微调,模型在理解患者需求和提供建议方面的能力得到了显著提升。

The release of the ChatDoctor dataset primarily aims to address the limitations of existing large language models in the medical knowledge domain. The dataset contains 115,000 English conversation samples, including real dialogues between patients and doctors obtained from websites, as well as generated dialogues and disease database information. By fine-tuning models with this dataset, their ability to understand patient needs and provide recommendations has been significantly enhanced.
提供机构:
University of Texas Southwestern Medical Center et al.
创建时间:
2023-03-01
原始信息汇总

ChatDoctor 数据集概述

数据集基本信息

数据集内容

1. 医疗对话数据

  • HealthCareMagic-100k: 来自HealthCareMagic.com的10万条真实医患对话。
  • icliniq-10k: 来自icliniq.com的1万条真实医患对话。
  • GenMedGPT-5k: 由ChatGPT生成的5千条医患对话。
  • 疾病数据库: format_dataset.csv
  • 基础对话能力数据: Stanford Alpaca数据。

2. 模型权重

数据集特点

  • 数据来源: 真实医患对话和生成对话相结合。
  • 数据处理: 手动和自动过滤,去除身份信息,纠正语法错误。
  • 多样性: 包含多种疾病和症状的描述,提高模型的泛化能力。

应用场景

  • 医疗问答: 患者可以通过ChatDoctor模型获取医疗建议。
  • 学术研究: 用于医疗对话生成和自然语言处理研究。

使用限制

  • 禁止商业用途: 由于基于LLaMA的非商业许可证,禁止任何商业用途。
  • 禁止临床用途: 模型未获得医疗相关许可,不保证医疗诊断的完全正确性。

相关资源

参考文献

bibtex @article{li2023chatdoctor, title={ChatDoctor: A Medical Chat Model Fine-Tuned on a Large Language Model Meta-AI (LLaMA) Using Medical Domain Knowledge}, author={Li, Yunxiang and Li, Zihan and Zhang, Kai and Dan, Ruilong and Jiang, Steve and Zhang, You}, journal={Cureus}, volume={15}, number={6}, year={2023}, publisher={Cureus} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
ChatDoctor数据集的构建基于大规模的真实医患对话数据,主要来源于HealthCareMagic和icliniq两个在线医疗咨询平台。研究人员从HealthCareMagic平台收集了约10万条真实的医患对话,并通过手动和自动过滤的方式去除身份信息并修正语法错误,形成了HealthCareMagic-100k数据集。此外,还从icliniq平台收集了约1万条对话用于模型性能评估。为了增强模型的对话能力,ChatDoctor还结合了斯坦福Alpaca数据集进行初步微调,并引入了包含700多种疾病的外部知识库,以提升模型在医学领域的专业性。
特点
ChatDoctor数据集的特点在于其真实性和多样性。数据集中的对话来源于实际的医患交流,涵盖了广泛的疾病和症状描述,能够反映真实的医疗场景。此外,数据集还结合了外部知识库,如Wikipedia和疾病数据库,使得模型能够基于权威的医学知识进行推理和回答。ChatDoctor模型不仅能够处理常见的医学问题,还能够通过不断学习优化其回答的准确性和个性化程度,从而为患者提供更为精准的医疗建议。
使用方法
使用ChatDoctor数据集时,研究人员可以通过微调预训练模型来适应特定的医学任务。数据集支持多种微调方式,包括全量微调和基于LoRA的低秩适应方法。用户可以通过提供的训练脚本,结合HealthCareMagic-100k或icliniq-10k数据集进行模型训练。训练完成后,模型可以通过简单的命令行工具进行推理,用户可以通过交互式界面与模型进行对话,模拟真实的医患交流场景。此外,ChatDoctor还支持基于外部知识库的自主知识检索功能,进一步提升模型在复杂医学问题上的表现。
背景与挑战
背景概述
ChatDoctor数据集由Yunxiang Li等研究人员于2023年创建,旨在通过基于Meta-AI的大型语言模型LLaMA,结合医学领域知识,开发一种能够模拟医患对话的智能医疗助手。该数据集的核心研究问题是如何利用自然语言处理技术,提升AI在医疗咨询中的准确性和实用性。数据集包含了来自HealthCareMagic和icliniq等平台的真实医患对话,涵盖了超过10万条对话记录。ChatDoctor的推出,不仅为医疗AI领域提供了宝贵的数据资源,还推动了智能医疗助手的研发进程,具有重要的学术和应用价值。
当前挑战
ChatDoctor数据集在构建和应用过程中面临多重挑战。首先,医患对话的多样性和复杂性使得模型在理解和生成准确回答时面临困难,尤其是在处理非结构化、口语化的患者描述时。其次,数据集的构建过程中,如何确保数据的隐私保护和匿名化处理,同时保持数据的多样性和真实性,是一个重要的技术难题。此外,尽管ChatDoctor在模拟医患对话方面取得了显著进展,但其输出的准确性和可靠性仍需进一步提升,尤其是在涉及复杂医疗诊断时,模型的表现仍存在局限性。这些挑战不仅影响了模型的临床应用,也对未来的研究方向提出了更高的要求。
常用场景
经典使用场景
ChatDoctor数据集在医学领域的自然语言处理研究中具有重要应用,尤其是在模拟医患对话的场景中。该数据集通过整合来自HealthCareMagic和iCliniq的真实医患对话,为研究人员提供了一个丰富的语料库,用于训练和评估医疗对话模型。这些对话涵盖了广泛的医学主题,能够帮助模型更好地理解患者的症状描述,并生成符合医学规范的回应。
实际应用
在实际应用中,ChatDoctor数据集为开发智能医疗助手提供了坚实的基础。通过模拟真实的医患对话,该数据集能够帮助构建个性化的医疗咨询系统,为患者提供初步的健康建议。尽管目前模型尚未达到100%的准确性,但其在辅助诊断和信息检索方面的潜力已得到初步验证,未来有望在远程医疗和健康管理领域发挥更大作用。
衍生相关工作
ChatDoctor数据集衍生了多项相关研究工作,特别是在基于LLaMA模型的医疗对话系统优化方面。例如,研究人员利用该数据集开发了基于知识检索的自主对话系统,通过关键词提取和知识库匹配,提升了模型的回答准确性和可信度。此外,该数据集还被用于探索低资源环境下的模型微调方法,如LoRA技术,为医疗AI的轻量化部署提供了新的思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录