IMCS-21

Name: IMCS-21
Creator: 复旦大学数据科学与计算机科学学院
Published: 2022-12-25 19:03:57
License: 暂无描述

arXiv2022-12-25 更新2024-06-21 收录

下载链接：

https://github.com/lemuria-wchen/imcs21

下载链接

链接失效反馈

官方服务：

资源简介：

IMCS-21是由复旦大学数据科学与计算机科学学院创建的大型医学对话数据集，专注于自动医疗咨询系统的研究与应用。该数据集包含4116个样本，涵盖10种儿科疾病，每个对话平均包含40个发言，523个汉字和26个实体。数据集通过多级细粒度标注，支持包括命名实体识别、对话行为分类、症状标签推断、医学报告生成和诊断导向对话策略等五项任务。IMCS-21旨在通过提供丰富的医学对话数据，推动自动医疗咨询技术的发展，特别是在提高医疗咨询效率和患者体验方面。

IMCS-21 is a large-scale medical dialogue dataset developed by the School of Data Science and Computer Science, Fudan University, focusing on the research and application of automated medical consultation systems. This dataset consists of 4116 samples covering 10 pediatric diseases. Each dialogue contains an average of 40 utterances, 523 Chinese characters and 26 entities. With multi-level fine-grained annotations, it supports five tasks including named entity recognition, dialogue act classification, symptom label inference, medical report generation and diagnosis-oriented dialogue strategies. IMCS-21 aims to advance the development of automated medical consultation technologies, particularly in improving medical consultation efficiency and patient experience, by providing rich medical dialogue data.

提供机构：

复旦大学数据科学与计算机科学学院

创建时间：

2022-04-20

搜集汇总

数据集介绍

构建方式

在医疗对话建模领域，构建高质量标注数据集是推动自动医疗咨询系统发展的关键。IMCS-21数据集的构建基于从百度拇指医生平台收集的真实儿科在线医疗咨询记录，涵盖支气管炎、发热、腹泻等十种常见儿科疾病。研究团队通过严格的数据清洗流程，移除了不完整或对话过短的样本，随后由医学背景的标注人员对筛选后的4,116个样本进行多层次细粒度标注。标注方案涵盖词元级别的医疗命名实体识别、话语级别的对话行为分类、对话级别的症状标签推断以及医疗报告撰写，并采用双重标注与第三方仲裁机制确保标注一致性，科恩卡帕系数显示标注者间一致性达到满意水平。

特点

IMCS-21数据集以其多层次、细粒度的标注体系在医疗对话数据集中脱颖而出。该数据集不仅包含传统的医疗命名实体标注，还创新性地集成了对话行为分类、症状状态推断以及结构化医疗报告生成所需的完整信息。其标注覆盖了症状、药物、检查等五类实体，并定义了16种对话行为类别，能够精准刻画医患交流中的意图与状态转移。数据规模方面，它包含超过16万条话语，平均每个对话涵盖40轮交流与26个实体，为模型训练提供了充足且多样化的语境。尤为重要的是，数据集将症状实体与标准化医学术语系统SNOMED-CT对齐，并标注了阳性、阴性及不确定三种状态，为症状推理与诊断策略学习提供了结构化基础。

使用方法

IMCS-21数据集为自动医疗咨询研究提供了系统性的基准测试平台。研究者可依据其划分的训练集、开发集和测试集，在两大框架下开展五项核心任务评估。在对话理解框架中，可进行医疗命名实体识别、对话行为分类、症状标签推断和医疗报告生成任务，利用数据集提供的实体边界、行为类别、症状标签及人工撰写的报告作为监督信号。在任务导向交互框架中，则可用于诊断导向的对话策略学习，通过模拟患者交互来优化症状询问与疾病诊断策略。数据集的标准化分割与多任务设定支持模型性能的横向比较，其附带的基准实验结果也为后续研究提供了可靠的性能参照起点。

背景与挑战

背景概述

随着人工智能在医疗领域的深入应用，自动医疗咨询系统成为提升医疗服务效率与患者体验的关键研究方向。IMCS-21数据集由复旦大学数据科学学院等机构的研究团队于2022年创建，旨在构建一个支持自动医疗咨询的基准框架与任务体系。该数据集聚焦于儿科疾病，收录了来自在线健康社区的医患对话记录，并进行了多层次细粒度标注，涵盖命名实体识别、对话行为分类、症状标签推断、医疗报告生成及诊断导向对话策略等五项核心任务。其推出为医疗对话建模提供了大规模、高质量的数据资源，显著推动了医疗自然语言处理领域的发展，并为构建可解释、可控的自动诊断系统奠定了实证基础。

当前挑战

IMCS-21数据集致力于解决自动医疗咨询中的复杂挑战，其核心在于如何从非结构化的医患对话中准确提取结构化信息，并模拟人类医生的诊断推理过程。具体挑战包括：在领域问题层面，医疗对话中存在的语义模糊性、专业术语多样性以及症状推断的高度上下文依赖性，使得模型在实体识别与症状标签分类任务中面临精确度与鲁棒性的双重考验；在构建过程中，数据标注需依赖医学专业知识，以确保症状标准化、对话行为分类的一致性，同时处理大规模对话中存在的噪声与信息缺失问题，这要求标注方案兼具严谨性与可扩展性。此外，数据集的疾病范围限于儿科，其泛化能力至更广泛医疗场景仍需进一步探索。

常用场景

经典使用场景

在医疗人工智能领域，IMCS-21数据集作为一项精心标注的大规模医患对话语料库，其经典应用场景聚焦于自动医疗咨询系统的开发与评估。该数据集通过多层次的细粒度标注，支持从对话理解到任务导向交互的完整框架，为研究者提供了模拟真实在线问诊流程的标准化环境。具体而言，它常用于训练和测试模型在医患对话中进行命名实体识别、对话行为分类、症状标签推断等核心任务，从而推动智能诊断辅助系统的性能优化与创新。

实际应用

在实际应用层面，IMCS-21数据集为智能医疗咨询平台的建设提供了坚实支撑。基于该数据集训练的模型能够集成到在线健康社区或远程医疗系统中，实现自动症状询问、疾病初步筛查以及医疗报告生成等功能。例如，在儿科疾病咨询场景下，系统可借助数据集中标注的对话行为与症状标签，模拟医生进行多轮交互，高效收集患者信息并生成结构化诊断建议。这种应用不仅缓解了医疗资源紧张的压力，还提升了问诊流程的标准化与效率，为患者提供了更便捷、可靠的初级医疗服务。

衍生相关工作

围绕IMCS-21数据集，已衍生出一系列经典的医疗对话建模工作。在命名实体识别方面，研究借鉴了Lattice LSTM、BERT-CRF及领域专用模型如ERNIE-Health，提升了医疗实体边界的检测精度。对话行为分类任务则推动了TextCNN、BERT等文本分类模型在医疗意图识别中的应用优化。症状标签推断与医疗报告生成任务促进了多标签分类与序列到序列模型（如T5、ProphetNet）的适应性改进。此外，诊断导向的对话策略学习激发了分层强化学习（HRL）与生成对抗网络（GAMP）等方法的发展，这些工作共同构成了自动医疗咨询系统研究的重要基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集