CMID

github2022-12-19 更新2024-05-31 收录

下载链接：

https://github.com/IMU-MachineLearningSXD/CMID

下载链接

链接失效反馈

官方服务：

资源简介：

用于中文医疗QA意图理解任务的数据集，包含医疗意图分类信息和实体识别信息，支持4类和36类医疗意图分类。

A dataset designed for Chinese medical QA intent understanding tasks, encompassing medical intent classification information and entity recognition information, supporting both 4-class and 36-class medical intent classifications.

创建时间：

2022-12-19

原始信息汇总

数据集概述

数据集名称

Chinese Medical Intent Dataset (CMID)

数据集用途

用于中文医疗问答意图理解任务。

数据集格式

存储形式：JSON文件
包含字段：
- originalText：输入信息
- entities：实体识别信息，遵循CCKS2019 Task1标准
- seg_result：句子分割后的信息
- label_4class：手动标注的医疗意图分类信息（四类）
- label_36class：手动标注的医疗意图分类信息（三十六类）

分类详情

label_4class：病症、药物、治疗方案、其他
label_36class：
- 病症：定义，病因，临床表现，相关病症，治疗方法，推荐医院，预防，所属科室，禁忌，传染性，治愈率，严重性
- 药物：作用，适用症，价钱，药物禁忌，用法，副作用，成分
- 治疗方案：方法，费用，有效时间，临床意义/检查目的，治疗时间，疗效，恢复时间，正常指标，化验/体检方案，恢复
- 其他：设备用法，多问，养生，整容，两性，对比，无法确定

联系方式

邮箱：cssxd@imu.edu.cn
使用限制：仅限于科学研究项目使用。

搜集汇总

数据集介绍

构建方式

CMID数据集的构建基于对中国医疗问答意图理解任务的需求，通过深度学习模型进行命名实体识别，并结合CCKS2019 Task1标准进行标注。数据集中的每个条目包含五个字段：原始文本、实体信息、分词结果、四类意图标签和三十六类意图标签。这些标签通过人工注释完成，确保了数据的高质量和准确性。

特点

CMID数据集的显著特点在于其精细的分类体系和丰富的信息内容。数据集不仅提供了四类主要意图标签，还进一步细分为三十六类次要意图标签，涵盖了医疗领域的多个方面，如病症、药物、治疗方案和其他。这种多层次的分类结构使得数据集在处理复杂医疗问答任务时具有高度的灵活性和适用性。

使用方法

使用CMID数据集时，用户可以通过解析JSON文件获取所需信息。每个条目的原始文本字段提供了完整的问答内容，而实体字段和分词结果字段则支持进一步的文本分析和处理。四类和三十六类意图标签为意图识别和分类提供了明确的指导，适用于开发和优化中文医疗问答系统。

背景与挑战

背景概述

在医疗领域，自然语言处理（NLP）技术的应用日益广泛，尤其是在中文医疗问答系统中，意图理解是关键环节。CMID（Chinese Medical Intent Dataset）数据集应运而生，旨在为中文医疗问答意图理解任务提供高质量的数据支持。该数据集由内蒙古大学（IMU）的研究团队创建，主要研究人员通过深度学习模型和人工标注相结合的方式，构建了包含4类和36类医疗意图分类的丰富数据集。CMID的推出，不仅填补了中文医疗领域意图理解数据集的空白，还为相关研究提供了宝贵的资源，推动了中文自然语言处理技术在医疗领域的应用与发展。

当前挑战

尽管CMID数据集在中文医疗问答意图理解方面取得了显著进展，但其构建过程中仍面临诸多挑战。首先，医疗领域的专业性和复杂性使得数据标注工作异常艰巨，需要高度专业化的知识和经验。其次，数据集的多样性和覆盖范围有限，难以全面反映所有可能的医疗问答场景。此外，数据集的更新和维护也是一个持续的挑战，随着医学知识的不断更新，数据集需要定期更新以保持其时效性和准确性。最后，数据集的使用限制在科学研究领域，如何在实际应用中推广和验证其效果，也是一个值得探讨的问题。

常用场景

经典使用场景

在医疗领域，CMID数据集的经典使用场景主要集中在中文医疗问答意图理解任务中。该数据集通过提供丰富的医疗文本及其对应的意图分类，帮助研究人员和开发者构建和优化中文医疗问答系统。例如，系统可以通过分析患者的提问，准确识别出患者询问的是病症、药物、治疗方案还是其他相关信息，从而提供更为精准的医疗建议和信息。

衍生相关工作

基于CMID数据集，许多研究工作得以展开，推动了中文医疗自然语言处理领域的发展。例如，有研究者利用该数据集开发了新的意图识别模型，显著提高了医疗问答系统的准确性。此外，CMID还激发了关于医疗文本多层次分类的研究，促进了相关算法的创新和优化。这些衍生工作不仅丰富了学术研究的内容，也为实际应用提供了技术支持。

数据集最近研究