five

CMtMedQA|医疗对话数据集|模型训练数据集

收藏
github2023-12-12 更新2024-05-31 收录
医疗对话
模型训练
下载链接:
https://github.com/SupritYoung/Zhongjing
下载链接
链接失效反馈
资源简介:
包含70,000条多轮对话数据集,来源于真实医患交流,包含了大量的主动问询语句,有助于提升模型的主动医疗询问能力。

This dataset comprises 70,000 multi-turn dialogues derived from actual doctor-patient interactions, encompassing a substantial number of proactive inquiry statements, which are instrumental in enhancing the model's capability for proactive medical inquiries.
创建时间:
2023-07-18
原始信息汇总

数据集概述

数据集名称:CMtMedQA

数据集描述

  • 来源:该数据集包含70,000条多轮对话数据,完全来源于真实医患对话。
  • 特点:数据集中包含大量医生主动提问的语句,有助于提升模型的主动医疗询问能力。
  • 用途:用于训练和评估中文医学大型模型的多轮对话能力。

数据集链接CMtMedQA

测试集

测试集名称:CMtMedQA_test

测试集描述

  • 规模:包含1000条数据。
  • 内容:用于评估模型的多轮对话能力,其中包含200条数据用于评估模型对中文医疗安全性的响应,包括诱导攻击和极端问题。

测试集文件CMtMedQA_test

训练数据

数据集名称:RLHF 部分示例数据

数据集描述

  • 规模:包含2000条数据。
  • 用途:用于训练奖励模型。

数据集文件RLHF 部分示例数据

评估结果

评估方法:结合使用GPT-4和专业医生的评估方法,从安全性、专业性和流畅性三个角度对模型的对话能力进行评估。

评估指标:评估结果包括模型在不同查询下的响应,以及综合评估指标。

评估结果图评估结果

AI搜集汇总
数据集介绍
main_image_url
构建方式
CMtMedQA数据集的构建基于真实医患对话,涵盖了70,000条多轮对话记录。这些对话不仅包含了患者的提问,还特别强调了医生的主动询问,以增强模型在医疗对话中的主动性和专业性。数据集的构建过程中,特别注重了对话的自然性和专业性,确保每一轮对话都能反映真实的医疗咨询场景。此外,数据集还包含了一定数量的医疗攻击性询问,以提高模型在应对敏感和极端问题时的安全性。
特点
CMtMedQA数据集的一个显著特点是其多轮对话结构,这种结构有助于模型学习如何在连续的对话中保持上下文的相关性和一致性。数据集中的对话内容丰富多样,涵盖了从疾病诊断到治疗建议的多个医疗领域,使得模型能够在广泛的医疗场景中表现出色。此外,数据集中包含的医疗攻击性询问为模型提供了处理敏感和极端情况的能力,增强了模型的安全性和可靠性。
使用方法
CMtMedQA数据集的使用方法主要包括模型的训练和评估。在训练阶段,数据集可以用于预训练、有监督微调以及强化学习与人类反馈(RLHF)的训练流程。通过这种方式,模型能够从大量的真实对话中学习,提高其在医疗对话中的表现。在评估阶段,数据集提供了一个包含1000条对话的测试集,用于评估模型在多轮对话中的能力,特别是其对中文医疗安全性的响应。此外,数据集中的RLHF部分示例数据可以用于训练奖励模型,进一步优化模型的性能。
背景与挑战
背景概述
CMtMedQA数据集由郑州大学自然语言处理实验室于2023年构建,旨在提升中文医学领域大型语言模型的对话能力。该数据集包含70,000条真实医患多轮对话,涵盖了丰富的主动问询场景,为模型的预训练、有监督微调和强化学习与人类反馈(RLHF)提供了高质量的训练数据。作为首个实现全流程训练的中文医学大模型Zhongjing-LLaMA的核心数据支撑,CMtMedQA在推动中文医学对话系统的专业化和安全性方面具有重要意义,为相关领域的研究提供了宝贵的资源。
当前挑战
CMtMedQA数据集在构建和应用过程中面临多重挑战。首先,医学领域的复杂性和专业性要求对话数据具备高度的准确性和专业性,这对数据采集和标注提出了极高的要求。其次,多轮对话的连贯性和逻辑性需要模型具备强大的上下文理解能力,这对模型的训练和优化提出了更高的技术挑战。此外,数据集还需应对医学安全性和伦理问题,例如如何处理诱导攻击和极端问题,以确保模型在实际应用中的安全性和可靠性。这些挑战不仅考验了数据集的构建质量,也对模型的训练方法和评估体系提出了更高的标准。
常用场景
经典使用场景
CMtMedQA数据集在中文医疗大模型的训练与评估中扮演了关键角色。该数据集包含了70,000条真实医患多轮对话,涵盖了从疾病诊断到治疗建议的广泛医疗场景。通过这一数据集,研究人员能够训练出具备主动医疗询问能力的模型,使其在复杂的医疗对话中展现出接近专业医生的表现。
解决学术问题
CMtMedQA数据集有效解决了中文医疗大模型在专业性和泛化能力上的不足。通过引入真实医患对话数据,模型能够在多轮对话中更好地理解患者需求,并提供准确的医疗建议。此外,数据集中的主动问询语句显著提升了模型的主动询问能力,使其在医疗咨询场景中更具实用性。
衍生相关工作
CMtMedQA数据集的发布推动了中文医疗大模型领域的多项研究进展。基于该数据集,研究人员开发了Zhongjing-LLaMA模型,实现了从预训练到RLHF的全流程训练。此外,该数据集还启发了其他相关研究,如医疗对话生成、医疗问答系统优化等,进一步丰富了中文医疗AI的研究生态。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录

RFUAV

RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集,包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题,提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别,有助于推动相关技术的研究与应用。

arXiv 收录