MedDG

arXiv2025-09-30 收录

下载链接：

https://github.com/lwgkzl/MedDG

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为MedDG，是一个包含从在线咨询网站收集的对话的医疗对话数据集，每个对话都标注了医疗实体。每条发言都经过半自动化的标注，涉及5种类型的医疗实体。该数据集的规模包括：训练集14864条对话，开发集2000条对话，测试集1000条对话。其任务是医疗对话响应生成。

The dataset named MedDG is a medical dialogue dataset consisting of conversations collected from online consultation websites. Each dialogue is annotated with medical entities, and every utterance in the dialogues has undergone semi-automated annotation covering 5 types of medical entities. The dataset includes 14,864 dialogue samples for the training set, 2,000 for the development set, and 1,000 for the test set. The task of this dataset is medical dialogue response generation.

搜集汇总

数据集介绍

构建方式

MedDG数据集的构建源于春雨医生平台消化内科的真实在线医疗咨询对话，经过严格筛选，剔除了对话轮次少于10或超过50、以及包含非文本信息的低质量样本，最终保留了17,864段对话与385,951条话语。在实体标注环节，研究团队采用半自动化流水线：首先由领域专家手动标注1,000段对话，基于此设计正则表达式规则，开发自动标注程序，并通过四轮专家校验与程序迭代，使标注准确率达到96.75%。标注涵盖疾病、症状、药物、检查和属性五类共160种实体，实体相关文本跨度先被提取，再映射至预定义的标准化实体。

使用方法

MedDG支持实体感知的医疗对话生成研究，典型用法为流水线方法：先利用编码器（如LSTM、BERT变体）对对话历史进行编码，通过二分类预测下一轮回复中应出现的实体集合；随后将预测实体与历史拼接，输入生成模型（如Seq2Seq、GPT-2、DialoGPT）以生成包含医疗实体的响应。数据集提供了训练、开发、测试集划分（14,864/2,000/1,000段对话），并内置了基于BERT的预训练模型MedDGBERT以强化实体预测。评估指标涵盖文本质量（BLEU、Distinct）和实体覆盖（精确率、召回率、F1），实验表明实体感知方法能显著提升回复的专业性与准确性。

背景与挑战

背景概述

在智能医疗领域，在线问诊系统正逐步成为缓解医疗资源紧张、提升就诊效率的关键技术手段。然而，现有医疗对话数据集普遍存在实体标注缺失或规模过小的问题，难以支撑高精度的实体感知对话生成研究。为此，中山大学、香港科技大学、香港理工大学及腾讯Jarvis实验室的研究人员于2022年联合发布了MedDG数据集，该数据集包含17,864段中文消化内科对话、385,951条语句及217,205个实体标注，涵盖疾病、症状、药物、检查与属性五类核心医疗实体，规模较此前同类数据集提升至少一个数量级。MedDG的构建不仅为实体感知的医疗对话生成提供了大规模高质量语料，更通过实验验证了引入实体信息可显著提升生成响应的专业性与准确性，推动了该领域从单纯文本生成向知识驱动的对话系统演进。

当前挑战

MedDG数据集所面临的挑战主要体现在两个层面。其一，在领域问题层面，医疗对话生成需应对三大核心难点：对话以医疗实体为中心，实体预测的准确性直接影响诊断可靠性；患者描述中常包含大量冗余闲聊内容，占比可达40%，模型需具备去噪与聚焦关键信息的能力；医生问诊顺序灵活多变，同一症状的询问次序可能不同，增加了对话历史建模的复杂度。其二，在数据集构建层面，实体标注面临高昂人力成本与一致性保障的挑战，研究团队采用半自动标注流程，经过四轮迭代优化，最终自动标注准确率达96.75%，但实体预测的F1值仍不足30%，表明模型对医疗实体的理解与预测仍有巨大提升空间。

常用场景

经典使用场景

在智能医疗对话系统的构建中，MedDG数据集被广泛用于训练和评估面向实体的对话生成模型。该数据集以消化内科在线咨询为背景，提供了丰富的医疗实体标注，涵盖疾病、症状、药物、检查和属性五大类别。研究者通过该数据集训练模型，使其能够从冗长的患者叙述中精准捕捉关键实体，并生成包含正确医疗术语的回复，从而提升对话系统的专业性与准确性。

解决学术问题

MedDG数据集有效解决了现有医疗对话数据集规模小、缺乏实体标注的问题，为实体感知的医疗对话生成研究提供了坚实的数据基础。基于该数据集，学术界得以系统性地探究实体预测与实体引导生成两大核心任务，验证了引入实体信息能显著提升回复质量，揭示了当前模型在复杂实体推理和领域知识整合方面的不足，推动了该方向的研究进展。

实际应用

在实际应用中，基于MedDG训练的对话系统可嵌入在线医疗咨询平台，辅助医生进行初步问诊，自动收集患者症状、建议检查或推荐药物。例如，系统能识别患者描述的“胃胀、反酸”等关键症状，并生成“建议口服奥美拉唑”等专业回复，从而缓解医生在线咨询压力，提升诊疗效率，尤其适用于消化内科等常见病种的远程医疗服务。

数据集最近研究