CMtMedQA

github2023-12-12 更新2024-05-31 收录

下载链接：

https://github.com/SupritYoung/Zhongjing

下载链接

链接失效反馈

资源简介：

包含70,000条多轮对话数据集，来源于真实医患交流，包含了大量的主动问询语句，有助于提升模型的主动医疗询问能力。

This dataset comprises 70,000 multi-turn dialogues derived from actual doctor-patient interactions, encompassing a substantial number of proactive inquiry statements, which are instrumental in enhancing the model's capability for proactive medical inquiries.

创建时间：

2023-07-18

原始信息汇总

数据集概述

数据集名称：CMtMedQA

数据集描述：

来源：该数据集包含70,000条多轮对话数据，完全来源于真实医患对话。
特点：数据集中包含大量医生主动提问的语句，有助于提升模型的主动医疗询问能力。
用途：用于训练和评估中文医学大型模型的多轮对话能力。

数据集链接：CMtMedQA

测试集

测试集名称：CMtMedQA_test

测试集描述：

规模：包含1000条数据。
内容：用于评估模型的多轮对话能力，其中包含200条数据用于评估模型对中文医疗安全性的响应，包括诱导攻击和极端问题。

测试集文件：CMtMedQA_test

训练数据

数据集名称：RLHF 部分示例数据

数据集描述：

规模：包含2000条数据。
用途：用于训练奖励模型。

数据集文件：RLHF 部分示例数据

评估结果

评估方法：结合使用GPT-4和专业医生的评估方法，从安全性、专业性和流畅性三个角度对模型的对话能力进行评估。

评估指标：评估结果包括模型在不同查询下的响应，以及综合评估指标。

评估结果图：

搜集汇总

数据集介绍

构建方式

CMtMedQA数据集的构建基于真实医患对话，涵盖了70,000条多轮对话记录。这些对话不仅包含了患者的提问，还特别强调了医生的主动询问，以增强模型在医疗对话中的主动性和专业性。数据集的构建过程中，特别注重了对话的自然性和专业性，确保每一轮对话都能反映真实的医疗咨询场景。此外，数据集还包含了一定数量的医疗攻击性询问，以提高模型在应对敏感和极端问题时的安全性。

特点

CMtMedQA数据集的一个显著特点是其多轮对话结构，这种结构有助于模型学习如何在连续的对话中保持上下文的相关性和一致性。数据集中的对话内容丰富多样，涵盖了从疾病诊断到治疗建议的多个医疗领域，使得模型能够在广泛的医疗场景中表现出色。此外，数据集中包含的医疗攻击性询问为模型提供了处理敏感和极端情况的能力，增强了模型的安全性和可靠性。

使用方法

CMtMedQA数据集的使用方法主要包括模型的训练和评估。在训练阶段，数据集可以用于预训练、有监督微调以及强化学习与人类反馈（RLHF）的训练流程。通过这种方式，模型能够从大量的真实对话中学习，提高其在医疗对话中的表现。在评估阶段，数据集提供了一个包含1000条对话的测试集，用于评估模型在多轮对话中的能力，特别是其对中文医疗安全性的响应。此外，数据集中的RLHF部分示例数据可以用于训练奖励模型，进一步优化模型的性能。

背景与挑战

背景概述

CMtMedQA数据集由郑州大学自然语言处理实验室于2023年构建，旨在提升中文医学领域大型语言模型的对话能力。该数据集包含70,000条真实医患多轮对话，涵盖了丰富的主动问询场景，为模型的预训练、有监督微调和强化学习与人类反馈（RLHF）提供了高质量的训练数据。作为首个实现全流程训练的中文医学大模型Zhongjing-LLaMA的核心数据支撑，CMtMedQA在推动中文医学对话系统的专业化和安全性方面具有重要意义，为相关领域的研究提供了宝贵的资源。

当前挑战

CMtMedQA数据集在构建和应用过程中面临多重挑战。首先，医学领域的复杂性和专业性要求对话数据具备高度的准确性和专业性，这对数据采集和标注提出了极高的要求。其次，多轮对话的连贯性和逻辑性需要模型具备强大的上下文理解能力，这对模型的训练和优化提出了更高的技术挑战。此外，数据集还需应对医学安全性和伦理问题，例如如何处理诱导攻击和极端问题，以确保模型在实际应用中的安全性和可靠性。这些挑战不仅考验了数据集的构建质量，也对模型的训练方法和评估体系提出了更高的标准。

常用场景

经典使用场景

CMtMedQA数据集在中文医疗大模型的训练与评估中扮演了关键角色。该数据集包含了70,000条真实医患多轮对话，涵盖了从疾病诊断到治疗建议的广泛医疗场景。通过这一数据集，研究人员能够训练出具备主动医疗询问能力的模型，使其在复杂的医疗对话中展现出接近专业医生的表现。

解决学术问题

CMtMedQA数据集有效解决了中文医疗大模型在专业性和泛化能力上的不足。通过引入真实医患对话数据，模型能够在多轮对话中更好地理解患者需求，并提供准确的医疗建议。此外，数据集中的主动问询语句显著提升了模型的主动询问能力，使其在医疗咨询场景中更具实用性。

衍生相关工作

CMtMedQA数据集的发布推动了中文医疗大模型领域的多项研究进展。基于该数据集，研究人员开发了Zhongjing-LLaMA模型，实现了从预训练到RLHF的全流程训练。此外，该数据集还启发了其他相关研究，如医疗对话生成、医疗问答系统优化等，进一步丰富了中文医疗AI的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集