IMCS-21

github2022-12-24 更新2024-05-31 收录

下载链接：

https://github.com/lemuria-wchen/imcs21

下载链接

链接失效反馈

官方服务：

资源简介：

IMCS-21是一个用于自动化医学咨询系统的基准数据集，包含4,116条标注的医学咨询记录，覆盖10种儿科疾病。

IMCS-21 is a benchmark dataset designed for automated medical consultation systems, comprising 4,116 annotated medical consultation records that cover 10 pediatric diseases.

创建时间：

2022-04-20

原始信息汇总

数据集概述

数据集名称: IMCS-21

数据集描述: IMCS-21是一个用于自动化医疗咨询系统的基准数据集，包含4,116条经过标注的医疗咨询记录，覆盖10种儿科疾病。该数据集旨在支持自动医疗咨询的研究，包括多个独立的任务，如命名实体识别、对话行为分类、症状标签推断、医疗报告生成和诊断导向的对话策略。

数据集版本

IMCS-21 2.0: 更新版本，详细信息可访问此处。

数据集任务与基准模型

命名实体识别 (NER):
- 基准模型: Lattice LSTM, BERT, ERNIE, FLAT, LEBERT
- 评估指标: 实体级和令牌级F1分数
对话行为分类 (DAC):
- 基准模型: TextCNN, TextRNN, TextRCNN, DPCNN, BERT, ERNIE
- 评估指标: 精确度(P), 召回率(R), F1分数(宏观), 准确性(Acc)
症状标签推断 (SLI):
- 基准模型: BERT-MLC, BERT-MTL
- 评估指标: 示例级指标(SA, HL, HS)和标签级指标(P, R, F1)
医疗报告生成 (MRG):
- 基准模型: Seq2Seq, PG, Transformer, T5, ProphetNet
- 评估指标: BLEU-2/4, ROUGE-1/2/L, 概念F1分数(C-F1), 基于正则表达式的诊断准确性(RD-Acc)
诊断导向的对话策略 (DDP):
- 基准模型: DQN, REFUEL, KR-DQN, GAMP, HRL
- 评估指标: 症状召回率(Rec), 诊断准确性(Acc), 平均交互次数(# Turns)

数据集测试集

测试集位置: 托管于CBLEU平台
提交结果: 欢迎在CBLEU平台上提交结果，或比较验证集上的结果。

引用信息

若使用此数据集，请引用以下论文:

@article{10.1093/bioinformatics/btac817, author = {Chen, Wei and Li, Zhiwei and Fang, Hongyi and Yao, Qianyuan and Zhong, Cheng and Hao, Jianye and Zhang, Qi and Huang, Xuanjing and Peng, Jiajie and Wei, Zhongyu}, title = "{A Benchmark for Automatic Medical Consultation System: Frameworks, Tasks and Datasets}", journal = {Bioinformatics}, year = {2022}, month = {12}, abstract = "{In recent years, interest has arisen in using machine learning to improve the efficiency of automatic medical consultation and enhance patient experience. In this article, we propose two frameworks to support automatic medical consultation, namely doctor-patient dialogue understanding and task-oriented interaction. We create a new large medical dialogue dataset with multi-level fine-grained annotations and establish five independent tasks, including named entity recognition, dialogue act classification, symptom label inference, medical report generation and diagnosis-oriented dialogue policy.We report a set of benchmark results for each task, which shows the usability of the dataset and sets a baseline for future studies.Both code and data is available from https://github.com/lemuria-wchen/imcs21.Supplementary data are available at Bioinformatics online.}", issn = {1367-4803}, doi = {10.1093/bioinformatics/btac817}, url = {https://doi.org/10.1093/bioinformatics/btac817}, note = {btac817}, eprint = {https://academic.oup.com/bioinformatics/advance-article-pdf/doi/10.1093/bioinformatics/btac817/48290490/btac817.pdf}, }

搜集汇总

数据集介绍

构建方式

IMCS-21数据集的构建基于真实医疗对话场景，涵盖了10种儿科疾病的4116条标注医疗咨询记录。数据集的构建过程包括多层次的细粒度标注，涉及命名实体识别、对话行为分类、症状标签推断、医疗报告生成和诊断导向的对话策略等任务。通过专业医学知识的支持，确保了数据的高质量和实用性。

特点

IMCS-21数据集的特点在于其多任务性和细粒度标注。它不仅支持命名实体识别和对话行为分类等传统自然语言处理任务，还涵盖了症状标签推断和医疗报告生成等复杂的医疗领域任务。数据集覆盖了多种儿科疾病，具有较高的多样性和代表性，为自动医疗咨询系统的研究提供了丰富的实验基础。

使用方法

IMCS-21数据集的使用方法包括多个任务的基准实验。用户可以通过GitHub获取数据集和基线模型的代码，复现论文中的实验结果。数据集支持多种任务，如NER、DAC、SLI、MRG和DDP，每个任务均有详细的评估指标和基线模型代码。用户还可以通过天池平台提交测试集结果，参与公开竞赛，进一步推动自动医疗咨询系统的研究。

背景与挑战

背景概述

IMCS-21数据集由陈伟等研究人员于2022年发布，旨在为自动化医疗咨询系统提供一个全面的基准测试平台。该数据集包含了4116条经过详细标注的儿科医疗咨询记录，涵盖了10种常见儿科疾病。IMCS-21的发布标志着医疗对话系统研究领域的一个重要里程碑，特别是在自然语言处理与医疗信息学的交叉领域。该数据集不仅为研究者提供了丰富的实验数据，还通过多个子任务（如命名实体识别、对话行为分类、症状标签推断等）推动了医疗对话系统的技术进步。其影响力不仅体现在学术研究中，还为实际医疗应用中的自动化咨询系统开发提供了重要参考。

当前挑战

IMCS-21数据集在解决医疗对话系统的核心问题时面临多重挑战。首先，医疗对话的复杂性和多样性使得模型在理解患者意图和生成准确回复方面存在困难，尤其是在多轮对话中保持上下文一致性。其次，数据标注的精细度要求极高，尤其是在症状识别和疾病诊断任务中，任何细微的误差都可能导致严重的医疗后果。此外，数据集的构建过程中，如何确保数据的隐私性和安全性也是一个重要挑战，特别是在处理敏感的医疗信息时。最后，尽管IMCS-21提供了丰富的基线模型，但这些模型在处理多任务联合学习时仍存在性能瓶颈，尤其是在跨任务知识迁移和模型泛化能力方面仍需进一步优化。

常用场景

经典使用场景

IMCS-21数据集广泛应用于自动医疗咨询系统的开发与评估，特别是在儿科疾病的诊断与治疗建议生成方面。该数据集包含了4116条标注的医疗咨询记录，涵盖了10种儿科疾病，为研究者提供了一个全面的基准测试平台。通过该数据集，研究人员可以训练和评估各种自然语言处理模型，如命名实体识别（NER）、对话行为分类（DAC）、症状标签推理（SLI）、医疗报告生成（MRG）以及诊断导向的对话策略（DDP）。

衍生相关工作

IMCS-21数据集衍生了许多相关的研究工作，特别是在医疗自然语言处理领域。基于该数据集，研究者提出了多种先进的模型，如BERT、ERNIE、T5等，这些模型在命名实体识别、对话行为分类和医疗报告生成等任务中表现出色。此外，IMCS-21还推动了诊断导向的对话策略研究，如基于强化学习的对话策略模型（DQN、HRL等），这些工作为自动医疗咨询系统的进一步发展奠定了基础。

数据集最近研究