IMCS21

github2022-12-27 更新2024-05-31 收录

下载链接：

https://github.com/lemuria-wchen/imcs21-cblue

下载链接

链接失效反馈

官方服务：

资源简介：

IMCS21数据集收集了真实的在线医患对话，并进行了多层次（Multi-Level）的人工标注，包含命名实体、对话意图、症状标签、医疗报告等，旨在促进智能医疗咨询系统的发展。

The IMCS21 dataset comprises authentic online doctor-patient dialogues, meticulously annotated at multiple levels (Multi-Level). It includes named entities, dialogue intents, symptom labels, medical reports, and more, with the aim of advancing the development of intelligent medical consultation systems.

创建时间：

2022-01-24

原始信息汇总

数据集概述

IMCS21-CBLUE 是一个专注于医疗对话的数据集，旨在促进智能医疗咨询系统（Intelligent Medical Consultation System, IMCS）的发展。该数据集收集了真实的在线医患对话，并进行了多层次的人工标注，包括命名实体、对话意图、症状标签和医疗报告等。

数据集内容

背景介绍：随着“互联网+医疗”的发展，在线问诊平台兴起，促使自动化医疗问诊的发展。
CBLUE 评测任务：IMCS21 在 CBLUE 评测平台上接入了四个任务，包括命名实体识别、症状识别、医疗报告生成和对话意图识别。
基线模型代码：提供基线模型代码以供参考和使用。
数据集介绍：包含 4,116 组细粒度标注的医患对话案例样本，覆盖 10 种儿科疾病。
多级数据注释：数据集进行了多级注释，包括命名实体、对话意图、症状标签和医疗报告。
数据格式：详细描述了训练集、验证集、测试集的数据格式和内容。

数据集更新

标签更正：已更正部分标签，包括命名实体、症状标签等。
新增字段：新增了 local_implicit_info 字段（句子级）。
数据集更新：添加了 4 种疾病，覆盖了 10 种疾病，共 4,116 条样本。

数据集详细信息

疾病覆盖：覆盖 10 种儿科疾病，具体包括小儿支气管炎、小儿发热、小儿腹泻等。
样本统计：总对话数 4,116，总句子数 164,731，平均每个对话包含的句子数 40，平均每个对话包含的字符数 523。
命名实体：包含 5 类命名实体，采用 BIO 三位字符级标注。
对话意图：包含 16 类对话意图，采用句子级标注。
症状标签：对症状实体进行了实体级标注，包括归一化标签和类别标签。
医疗报告：采用对话级标注，每个对话包含 2 份医疗报告。

数据集格式

训练集：文件名为 train.json，共 2,472 条样本。
验证集：文件名为 dev.json，共 833 条样本。
测试集输入：文件名为 test_input.json，共 811 条样本。
归一化的症状词典：文件名为 symptom_norm.csv，归一化后的症状词典。
映射字典：文件名为 mappings.json，包含症状、BIO-tag 和症状标签的映射信息。

搜集汇总

数据集介绍

构建方式

IMCS21数据集的构建基于真实的在线医患对话，涵盖了10种儿科疾病，共收集了4,116组对话样本。每段对话经过多层次的人工标注，包括命名实体、对话意图、症状标签和医疗报告等。数据标注采用字符级和句子级的方式，确保了对医疗文本的精细理解。此外，数据集还引入了`local_implicit_info`字段，用于捕捉句子级别的隐含信息，进一步提升了数据的丰富性和实用性。

使用方法

IMCS21数据集的使用方法主要围绕其四个核心任务展开：命名实体识别、症状识别、医疗报告生成和对话意图识别。研究者可以通过加载训练集、验证集和测试集进行模型训练和评估。数据集提供了详细的JSON格式文件，包含对话文本、标注信息和医疗报告等。此外，基线模型代码和评价脚本也为研究者提供了便捷的开发工具，帮助快速构建和优化智能医疗对话系统。

背景与挑战

背景概述

IMCS21数据集由阿里云天池平台于2021年发布，旨在推动智能医疗咨询系统的发展。该数据集由多位研究人员共同构建，包括陈伟、李志伟等，并发表在生物信息学领域的顶级期刊《Bioinformatics》上。数据集的核心研究问题在于如何通过自然语言处理技术，自动化处理医患对话中的关键信息，如命名实体识别、症状识别、医疗报告生成等。IMCS21的发布为智能医疗领域提供了重要的数据支持，推动了医学语言理解与自动化问诊系统的研究进展。

当前挑战

IMCS21数据集在构建和应用过程中面临多重挑战。首先，医患对话的复杂性和多样性使得命名实体识别和症状识别的准确性难以保证，尤其是症状的多样表达和归一化问题。其次，医疗报告的生成需要高度结构化的信息提取和总结能力，这对模型的上下文理解和生成能力提出了极高要求。此外，数据标注的复杂性也带来了挑战，多级标注要求标注者具备医学背景知识，且标注过程中需保持一致性。这些挑战不仅影响了数据集的构建质量，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

IMCS21数据集在智能医疗咨询系统的开发中扮演了关键角色，尤其是在自然语言处理（NLP）领域。该数据集通过提供丰富的医患对话样本，支持了多种任务的模型训练与评估，如命名实体识别、症状识别、医疗报告生成和对话意图识别。这些任务不仅帮助研究者深入理解医患对话的复杂性，还为开发高效的自动化医疗咨询系统奠定了基础。

解决学术问题

IMCS21数据集解决了医疗领域中的多个关键学术问题。首先，它通过多级数据注释，提供了对医患对话的深入理解，帮助研究者识别和分类医疗实体、症状和对话意图。其次，该数据集支持了医疗报告生成的自动化研究，减少了医生的工作负担。此外，IMCS21还为医疗对话系统的评估提供了标准化的基准，推动了该领域的算法创新和技术进步。

实际应用

在实际应用中，IMCS21数据集被广泛用于开发智能医疗咨询系统，这些系统能够辅助医生进行在线问诊，提高诊断效率和准确性。通过自动化的症状识别和医疗报告生成，系统能够快速响应患者需求，减轻医疗资源压力。此外，该数据集还被用于培训医疗AI模型，提升其在复杂医疗对话中的表现，从而改善患者体验和医疗服务质量。

数据集最近研究