MedDialog

github2024-04-30 更新2024-05-31 收录

下载链接：

https://github.com/onejune2018/Awesome-Medical-Healthcare-Dataset-For-LLM

下载链接

链接失效反馈

官方服务：

资源简介：

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

The MedDialog dataset (Chinese) contains dialogues between doctors and patients in Chinese. It comprises 1.1 million dialogues and 4 million utterances. The dataset is continuously growing, with more dialogues being added. The original dialogues are sourced from Haodf.com.

创建时间：

2023-08-16

原始信息汇总

中文医疗数据集概述

1. MedDialog

内容概述: 包含110万个医生和患者之间的中文对话，共400万个话语。
数据大小: 3.3GB
获取链接: 下载链接

2. 中文医疗对话数据集

内容概述: 包含六个科室的医学问答数据，总计792,099个问答对。
数据大小: 330MB
获取链接: 下载链接

3. Huatuo-26M

内容概述: 包含超过2600万对高质量的医学问答对，涵盖广泛主题。
数据大小: 4.54GB
获取链接: 下载链接

4. huatuo_encyclopedia_qa

内容概述: 包含364,420条医疗QA数据，涵盖疾病和药物信息。
数据大小: 605MB
获取链接: 下载链接

5. 中文医疗对话数据集(华佗项目)

内容概述: 包含22万条中文医疗对话数据。
数据大小: 333MB
获取链接: 下载链接

6. 医疗大模型数据集

内容概述: 包含240万条中文医疗数据，包括预训练、指令微调和奖励数据集。
数据大小: 2.1GB
获取链接: 下载链接

7. 外科问诊数据

内容概述: 包含60.8K条外科问诊数据。
数据大小: 936MB
获取链接: 下载链接

8. 中文医学指令精调/指令微调数据集

内容概述: 采用公开和自建的中文医学知识库，构建问答数据。
数据大小: 7.6K条
获取链接: 下载链接

9. MeChat：中文心理健康支持对话大模型与数据集

内容概述: 包含56k个多轮对话，主题丰富，适用于长程多轮对话场景。
数据大小: 56k条
获取链接: 下载链接

10. CMB-Chinese Medical Benchmark

内容概述: 包含280,839道多项选择题和74例复杂病例问诊题。
数据大小: 30MB
获取链接: 下载链接

11. ChatMed_Consult_Dataset

内容概述: 包含110,113个医疗问诊问题，由OpenAI GPT-3.5引擎回答。
数据大小: 395MB
获取链接: 下载链接

12. 中医药指令数据集

内容概述: 基于中医药知识图谱，采用自指令方法，调用ChatGPT得到11w+指令数据。
数据大小: 110MB
获取链接: 下载链接

13. cMedQA中文社区医学问答数据集

内容概述: 包含华人社区医疗问答数据，数据匿名处理。
数据大小: 80MB
获取链接: 下载链接

14. WebMedQA 线上医学QA

内容概述: 从在线健康咨询网站收集的真实中国医学问答数据集。
数据大小: 75MB
获取链接: 下载链接

15. ChineseBLUE基准

内容概述: 包含不同的生物医学文本挖掘任务，涵盖多种文本类型和难度。
数据大小: 400MB
获取链接: 下载链接

16. Yidu-S4K

内容概述: 命名实体识别,实体及属性抽取。
数据大小: 4K条
获取链接: 下载链接

17. Yidu-N7K

内容概述: 临床语标准化。
数据大小: 7K条
获取链接: 下载链接

18. HealthCareMagic-100k

内容概述: 来自HealthCareMagic.com的10万次病人和医生之间的真实对话。
数据大小: 137MB
获取链接: 下载链接

19. icliniq-10k

内容概述: 来自icliniq.com网站的病人和医生之间的10K条真实对话。
数据大小: 20MB
获取链接: 下载链接

20. GenMedGPT-5k

内容概述: 从ChatGPT和疾病数据库中生成了5k条患者和医生之间的对话。
数据大小: 5K条
获取链接: 下载链接

搜集汇总

数据集介绍

构建方式

MedDialog数据集的构建基于真实世界的医疗对话，原始数据来源于好大夫网。该数据集精心收集了医生与患者之间的对话，涵盖了广泛的医疗领域。通过系统的数据清洗和标注，确保了数据的高质量和一致性。目前，该数据集已包含110万个对话和400万个话语，并且仍在不断扩展中。

使用方法

MedDialog数据集适用于多种医疗自然语言处理任务，包括但不限于对话生成、问答系统、情感分析等。研究者和开发者可以通过提供的下载链接获取数据集，并根据具体需求进行预处理和模型训练。建议在使用前详细阅读数据集的文档，以确保正确理解和使用数据。

背景与挑战

背景概述

MedDialog数据集（中文）是由主要研究人员或机构创建的，旨在收集和分析医生与患者之间的对话数据。该数据集包含了超过110万个对话和400万个话语，原始数据来源于好大夫网。自创建以来，MedDialog数据集已成为医疗对话分析领域的重要资源，为研究人员提供了丰富的语料库，以探索和改进医疗对话系统。该数据集的不断增长和更新，进一步增强了其在相关研究中的影响力和实用性。

当前挑战

MedDialog数据集在构建过程中面临多个挑战。首先，收集和处理大量的医疗对话数据需要高度的专业性和技术能力，以确保数据的准确性和隐私保护。其次，医疗对话的复杂性和多样性使得数据标注和分类变得尤为困难。此外，如何有效地利用这些数据来训练和优化医疗对话系统，以提高其在实际应用中的表现，也是一个重要的研究挑战。这些挑战不仅涉及技术层面，还包括伦理和法律层面的考量。

常用场景

经典使用场景

MedDialog数据集在医疗领域中被广泛用于训练和评估对话系统，特别是那些旨在模拟医生与患者之间互动的系统。其丰富的对话内容和多样的医疗场景使得该数据集成为开发智能医疗助手和问诊机器人的理想选择。通过分析这些对话，研究人员可以提取出有效的医疗问答模式，从而提升系统的自然语言处理能力和医疗知识应用能力。

解决学术问题

MedDialog数据集解决了在医疗对话系统研究中常见的数据稀缺问题，为学术界提供了一个大规模、高质量的对话数据资源。这使得研究人员能够更深入地探索对话生成、对话理解和多轮对话管理等关键技术。此外，该数据集还有助于评估和比较不同对话系统在真实医疗场景中的表现，推动了医疗人工智能领域的技术进步。

实际应用

在实际应用中，MedDialog数据集被用于开发和优化各种医疗对话系统，如在线问诊平台、智能客服和医疗教育工具。这些系统能够帮助患者获取及时的医疗建议，减轻医生的工作负担，并提高医疗服务的效率和质量。通过模拟真实的医患对话，这些系统能够更好地理解和回应患者的疑问，提供个性化的医疗指导。

数据集最近研究