five

MedDialog|医疗对话数据集|患者交流数据集

收藏
github2024-04-30 更新2024-05-31 收录
医疗对话
患者交流
下载链接:
https://github.com/onejune2018/Awesome-Medical-Healthcare-Dataset-For-LLM
下载链接
链接失效反馈
资源简介:
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

The MedDialog dataset (Chinese) contains dialogues between doctors and patients in Chinese. It comprises 1.1 million dialogues and 4 million utterances. The dataset is continuously growing, with more dialogues being added. The original dialogues are sourced from Haodf.com.
创建时间:
2023-08-16
原始信息汇总

中文医疗数据集概述

1. MedDialog

  • 内容概述: 包含110万个医生和患者之间的中文对话,共400万个话语。
  • 数据大小: 3.3GB
  • 获取链接: 下载链接

2. 中文医疗对话数据集

  • 内容概述: 包含六个科室的医学问答数据,总计792,099个问答对。
  • 数据大小: 330MB
  • 获取链接: 下载链接

3. Huatuo-26M

  • 内容概述: 包含超过2600万对高质量的医学问答对,涵盖广泛主题。
  • 数据大小: 4.54GB
  • 获取链接: 下载链接

4. huatuo_encyclopedia_qa

  • 内容概述: 包含364,420条医疗QA数据,涵盖疾病和药物信息。
  • 数据大小: 605MB
  • 获取链接: 下载链接

5. 中文医疗对话数据集(华佗项目)

  • 内容概述: 包含22万条中文医疗对话数据。
  • 数据大小: 333MB
  • 获取链接: 下载链接

6. 医疗大模型数据集

  • 内容概述: 包含240万条中文医疗数据,包括预训练、指令微调和奖励数据集。
  • 数据大小: 2.1GB
  • 获取链接: 下载链接

7. 外科问诊数据

  • 内容概述: 包含60.8K条外科问诊数据。
  • 数据大小: 936MB
  • 获取链接: 下载链接

8. 中文医学指令精调/指令微调数据集

  • 内容概述: 采用公开和自建的中文医学知识库,构建问答数据。
  • 数据大小: 7.6K条
  • 获取链接: 下载链接

9. MeChat:中文心理健康支持对话大模型与数据集

  • 内容概述: 包含56k个多轮对话,主题丰富,适用于长程多轮对话场景。
  • 数据大小: 56k条
  • 获取链接: 下载链接

10. CMB-Chinese Medical Benchmark

  • 内容概述: 包含280,839道多项选择题和74例复杂病例问诊题。
  • 数据大小: 30MB
  • 获取链接: 下载链接

11. ChatMed_Consult_Dataset

  • 内容概述: 包含110,113个医疗问诊问题,由OpenAI GPT-3.5引擎回答。
  • 数据大小: 395MB
  • 获取链接: 下载链接

12. 中医药指令数据集

  • 内容概述: 基于中医药知识图谱,采用自指令方法,调用ChatGPT得到11w+指令数据。
  • 数据大小: 110MB
  • 获取链接: 下载链接

13. cMedQA中文社区医学问答数据集

  • 内容概述: 包含华人社区医疗问答数据,数据匿名处理。
  • 数据大小: 80MB
  • 获取链接: 下载链接

14. WebMedQA 线上医学QA

  • 内容概述: 从在线健康咨询网站收集的真实中国医学问答数据集。
  • 数据大小: 75MB
  • 获取链接: 下载链接

15. ChineseBLUE基准

  • 内容概述: 包含不同的生物医学文本挖掘任务,涵盖多种文本类型和难度。
  • 数据大小: 400MB
  • 获取链接: 下载链接

16. Yidu-S4K

  • 内容概述: 命名实体识别,实体及属性抽取。
  • 数据大小: 4K条
  • 获取链接: 下载链接

17. Yidu-N7K

  • 内容概述: 临床语标准化。
  • 数据大小: 7K条
  • 获取链接: 下载链接

18. HealthCareMagic-100k

  • 内容概述: 来自HealthCareMagic.com的10万次病人和医生之间的真实对话。
  • 数据大小: 137MB
  • 获取链接: 下载链接

19. icliniq-10k

  • 内容概述: 来自icliniq.com网站的病人和医生之间的10K条真实对话。
  • 数据大小: 20MB
  • 获取链接: 下载链接

20. GenMedGPT-5k

  • 内容概述: 从ChatGPT和疾病数据库中生成了5k条患者和医生之间的对话。
  • 数据大小: 5K条
  • 获取链接: 下载链接
AI搜集汇总
数据集介绍
main_image_url
构建方式
MedDialog数据集的构建基于真实世界的医疗对话,原始数据来源于好大夫网。该数据集精心收集了医生与患者之间的对话,涵盖了广泛的医疗领域。通过系统的数据清洗和标注,确保了数据的高质量和一致性。目前,该数据集已包含110万个对话和400万个话语,并且仍在不断扩展中。
使用方法
MedDialog数据集适用于多种医疗自然语言处理任务,包括但不限于对话生成、问答系统、情感分析等。研究者和开发者可以通过提供的下载链接获取数据集,并根据具体需求进行预处理和模型训练。建议在使用前详细阅读数据集的文档,以确保正确理解和使用数据。
背景与挑战
背景概述
MedDialog数据集(中文)是由主要研究人员或机构创建的,旨在收集和分析医生与患者之间的对话数据。该数据集包含了超过110万个对话和400万个话语,原始数据来源于好大夫网。自创建以来,MedDialog数据集已成为医疗对话分析领域的重要资源,为研究人员提供了丰富的语料库,以探索和改进医疗对话系统。该数据集的不断增长和更新,进一步增强了其在相关研究中的影响力和实用性。
当前挑战
MedDialog数据集在构建过程中面临多个挑战。首先,收集和处理大量的医疗对话数据需要高度的专业性和技术能力,以确保数据的准确性和隐私保护。其次,医疗对话的复杂性和多样性使得数据标注和分类变得尤为困难。此外,如何有效地利用这些数据来训练和优化医疗对话系统,以提高其在实际应用中的表现,也是一个重要的研究挑战。这些挑战不仅涉及技术层面,还包括伦理和法律层面的考量。
常用场景
经典使用场景
MedDialog数据集在医疗领域中被广泛用于训练和评估对话系统,特别是那些旨在模拟医生与患者之间互动的系统。其丰富的对话内容和多样的医疗场景使得该数据集成为开发智能医疗助手和问诊机器人的理想选择。通过分析这些对话,研究人员可以提取出有效的医疗问答模式,从而提升系统的自然语言处理能力和医疗知识应用能力。
解决学术问题
MedDialog数据集解决了在医疗对话系统研究中常见的数据稀缺问题,为学术界提供了一个大规模、高质量的对话数据资源。这使得研究人员能够更深入地探索对话生成、对话理解和多轮对话管理等关键技术。此外,该数据集还有助于评估和比较不同对话系统在真实医疗场景中的表现,推动了医疗人工智能领域的技术进步。
实际应用
在实际应用中,MedDialog数据集被用于开发和优化各种医疗对话系统,如在线问诊平台、智能客服和医疗教育工具。这些系统能够帮助患者获取及时的医疗建议,减轻医生的工作负担,并提高医疗服务的效率和质量。通过模拟真实的医患对话,这些系统能够更好地理解和回应患者的疑问,提供个性化的医疗指导。
数据集最近研究
最新研究方向
在医疗对话领域,MedDialog数据集的最新研究方向主要集中在利用大规模语言模型(LLMs)进行医疗对话的生成与理解。研究者们通过微调预训练模型,如ChatGLM和LLaMA,以提升模型在医疗场景下的问答效果和对话质量。此外,结合医学知识图谱和GPT-3.5 API构建的中文医学指令数据集,进一步增强了模型在复杂医疗对话中的表现。这些研究不仅推动了医疗对话系统的智能化,也为未来实现更加精准和人性化的医患交互奠定了基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

开源PHM数据集

本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。

github 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录