CMD
收藏github2019-01-01 更新2025-02-08 收录
下载链接:
https://github.com/Toyhom/Chinese-medical-dialogue-data
下载链接
链接失效反馈资源简介:
CMD数据集是一个中文医学问答数据集,旨在评估模型在医学领域的知识问答能力。该数据集包含总共792,099对问答,分为六个子领域:男科、内科、妇产科、肿瘤科、儿科和外科。
The CMD dataset is a Chinese medical question and answer dataset designed to evaluate the knowledge question-answering capabilities of models in the medical field. The dataset contains a total of 792,099 pairs of questions and answers, divided into six subfields: urology, internal medicine, gynecology and obstetrics, oncology, pediatrics, and surgery.
提供机构:
Toyhom
创建时间:
2019-01-01
原始信息汇总
中文医疗问答数据集概述
数据集基本信息
- 名称: 中文医疗问答数据集(Chinese medical dialogue data)
- 数据总量: 792,099条医疗问答对
- 数据分类: 6个专科领域
- 数据格式: CSV文件(原始数据)/JSON格式(微调数据)
数据分类详情
| 专科领域 | 数据量(问答对) |
|---|---|
| 男科(Andriatria) | 94,596 |
| 内科(IM) | 220,606 |
| 妇产科(OAGD) | 183,751 |
| 肿瘤科(Oncology) | 75,553 |
| 儿科(Pediatric) | 101,602 |
| 外科(Surgical) | 115,991 |
数据结构
CSV格式(原始数据)
包含4个字段:
- department: 科室名称
- title: 问题标题
- question: 患者提问内容
- answer: 医生回答内容
JSON格式(微调数据)
包含3个字段:
- instruction: 医生角色指令
- input: 患者问题
- output: 医生回答
模型微调结果
在ChatGLM-6B模型上的微调评估指标:
| 评估指标 | ChatGLM-6B | P-Tuning V2 | LoRA | LoRA-INT8 |
|---|---|---|---|---|
| BLEU-4 | 3.21 | 3.55 | 4.21 | 3.58 |
| Rouge-1 | 17.19 | 18.42 | 18.74 | 17.88 |
| Rouge-2 | 3.07 | 2.74 | 3.56 | 3.10 |
| Rouge-l | 15.47 | 15.02 | 16.61 | 15.84 |
| 训练参数占比 | / | 0.20% | 0.06% | 0.06% |
搜集汇总
数据集介绍

构建方式
CMD数据集的构建基于临床医疗场景,涵盖了男科、内科、妇产科、肿瘤科、儿科以及外科等六个专业领域。数据集由6个文件夹构成,每个文件夹下均含有一个csv文件,内含department(科室)、title(问题标题)、question(问题内容)和answer(答案内容)四列,总计收集了792099条问答对数据,形成了覆盖广泛医疗领域的高质量问答数据集。
特点
CMD数据集的特点在于其数据的多样性和专业性。数据覆盖了多个临床科室,包含了大量的真实医疗咨询问答,不仅提供了问题与答案的文本,还标注了咨询科室,有助于研究者在进行自然语言处理任务时能够针对不同科室的术语和语境进行建模。此外,该数据集的问答对内容贴近实际医疗场景,有助于提升模型的实用性和准确度。
使用方法
使用CMD数据集时,研究者可以按照科室分类对数据进行预处理,针对特定科室或全部数据集进行模型训练和评估。数据集中的csv文件可以方便地导入至数据分析工具中进行探索,同时,数据集也支持JSON格式的输入输出,便于与各类机器学习框架和自然语言处理工具结合使用,开展如文本分类、信息抽取等任务的研究与应用。
背景与挑战
背景概述
CMD数据集,全称为Chinese Medical Dialogue Data,即中文医疗问答数据集,是在医疗健康信息化迅速发展的背景下应运而生的一个大规模中文医疗对话数据集。该数据集由多个子领域构成,包括男科、内科、妇产科、肿瘤科、儿科以及外科,总计包含了792099条问答数据。CMD数据集的创建旨在为自然语言处理、信息检索、知识图谱以及人工智能在医疗健康领域的应用研究提供基础资源。该数据集的构建始于我国科研人员的深入探索,并由相关领域的研究团队负责维护与更新,对中文医疗信息处理领域产生了重要影响,为相关研究和应用提供了宝贵的数据支持。
当前挑战
CMD数据集在构建和应用过程中面临的挑战主要体现在两个方面:一是领域知识的多样性和复杂性带来的数据标注一致性挑战,这要求研究人员在保证数据质量的同时,还需关注各专科领域知识的准确性和完整性;二是数据集在应对实际医疗场景时,如何有效支持个性化和精准化的医疗问答,这涉及自然语言理解的深度和广度,以及对医学知识的深度挖掘和利用。此外,数据集在构建过程中还需克服数据隐私保护、数据标注成本控制等问题,以确保数据集的可用性和可持续性。
常用场景
经典使用场景
CMD数据集作为中文医疗问答领域的重要资源,其经典使用场景主要在于构建和训练自然语言处理模型,以实现自动化的医疗问答系统。该数据集包含了大量的真实医疗对话,为模型提供了丰富的学习材料,使其能够理解和回答患者提出的各类医疗问题,从而提高医疗服务的效率和质量。
实际应用
在实践应用方面,CMD数据集的应用场景广泛,包括但不限于在线医疗咨询、智能医疗服务机器人、电子健康记录系统中的自动问答等。通过利用CMD数据集,开发出的系统可以在不泄露患者隐私的前提下,提供快速、准确的医疗信息和建议,极大地便利了医疗服务。
衍生相关工作
CMD数据集的发布促进了相关领域的研究工作,衍生出了一系列的经典研究,如构建基于深度学习的医疗问答模型、开发面向特定疾病的自动诊断系统、以及研究医患对话中的情感分析和患者满意度等。这些研究不仅推动了医疗信息技术的进步,也为改善医疗服务和患者体验提供了技术支持。
以上内容由遇见数据集搜集并总结生成



