CMQCIC-Bench

Name: CMQCIC-Bench
Creator: 华东理工大学信息科学与工程学院
Published: 2025-02-17 19:40:48
License: 暂无描述

arXiv2025-02-17 更新2025-02-19 收录

下载链接：

https://anonymous.4open.science/r/C-MQCIC-1151

下载链接

链接失效反馈

官方服务：

资源简介：

CMQCIC-Bench是一个基于中国在线网站的中文电子病历数据集，由华东理工大学信息科学与工程学院创建。该数据集包含785个实例，涵盖了76种不同的医疗质量控制指标，旨在评估大型语言模型在医疗质量控制指标计算任务上的性能。数据集的构建经过专家指导下的数据注释和逻辑推理，每个实例由患者笔记、相关问题及答案组成，并提供了详细的临床事实注释和解释。

CMQCIC-Bench is a Chinese electronic medical record dataset sourced from Chinese online websites, developed by the School of Information Science and Engineering, East China University of Science and Technology. This dataset contains 785 instances covering 76 distinct medical quality control indicators, and is designed to evaluate the performance of large language models (LLMs) on the task of medical quality control indicator calculation. The construction of the dataset involved data annotation and logical reasoning under the guidance of domain experts. Each instance consists of patient notes, relevant questions and corresponding answers, and provides detailed clinical fact annotations and explanations.

提供机构：

华东理工大学信息科学与工程学院

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

CMQCIC-Bench 数据集的构建基于中文电子病历（EMR）数据，包含了 785 个实例和 76 个指标。数据收集来自两个来源：指标来源为权威文档，由专家手动筛选出 76 个具有挑战性的指标；患者笔记来源为中国开源医疗网站，基于 ICD-10 代码和诊断结果筛选出符合指标分母规则的患者笔记。数据标注过程采用三步流程：临床事实提取、答案和解释生成以及数据质量控制。最后，由医疗专家审核增强后的规则，以确保其准确性和有效性。

特点

CMQCIC-Bench 数据集具有以下特点：1）真实世界任务：数据集涵盖了真实世界中的医疗质量控制指标计算（MQCIC）任务，具有实际应用价值；2）丰富的指标：数据集包含了 76 个不同的医疗质量控制指标，覆盖了 30 种疾病；3）详细的注释：每个实例都包含了患者笔记、问题、解释和答案，以及临床事实的详细注释；4）规则增强：数据集采用半自动方法增强规则表示，提高了规则的透明度和可解释性。

使用方法

CMQCIC-Bench 数据集可用于评估大型语言模型（LLM）在医疗质量控制指标计算任务中的性能。使用方法包括：1）规则表示增强：利用 LLM 对规则进行知识增强、规则分解和临床事实模板化；2）基于临床事实的推理规则：将推理过程分为临床事实验证和推理规则推理两个阶段；3）评估：使用准确率作为评估指标，通过 DeepSeek 工具评估步骤推理中的事实忠实度和事实正确性。

背景与挑战

背景概述

在医疗质量控制指标评估领域，医学质量控制指标是评估医疗机构医疗服务质量的关键。随着大型语言模型（LLM）如GPT-4在医疗领域的卓越表现，利用这些技术进行医学质量控制指标计算（MQCIC）展现出巨大的潜力。CMQCIC-Bench数据集应运而生，该数据集由华东理工大学信息科学与工程学院的研究团队创建，包含了785个实例和76个指标，旨在评估大型语言模型在医学质量控制指标计算任务上的性能。该数据集的创建不仅提供了真实世界的医疗场景，还通过半自动化的方法增强了规则表示，并提出了基于临床事实的推理规则（CF-IR）方法，以解耦临床事实验证和推理规则推理行为。此外，该数据集还进行了全面的实验，对20个具有代表性的LLM进行了评估，为医学质量控制指标计算领域的研究提供了重要的参考数据。

当前挑战

CMQCIC-Bench数据集面临的挑战包括：1)解决医学质量控制指标计算任务的挑战，该任务需要LLM具备精确、可靠的复杂临床推理能力，尤其是在使用链式思维（CoT）推理时；2)构建过程中遇到的挑战，如规则的模糊性影响了LLM的有效性，需要半自动化的方法来增强规则表示。此外，数据集的构建和评估也需要解决LLM的透明度和可解释性问题，以提高用户对LLM临床决策的信任。

常用场景

经典使用场景

CMQCIC-Bench 数据集被广泛用于评估大型语言模型在医疗质量控制指标计算任务（MQCIC）中的表现。该数据集包含了785个实例和76个指标，涵盖了从电子病历中提取和验证临床事实，以及应用逻辑规则进行推理的能力。这使得CMQCIC-Bench成为研究医疗领域大型语言模型推理能力的重要基准。

解决学术问题

CMQCIC-Bench 数据集解决了传统医疗质量控制指标计算方法中人工构建规则效率低下的问题。通过引入半自动方法增强规则表示，并结合临床事实验证和推理规则分解，CMQCIC-Bench 为大型语言模型在医疗领域中的应用提供了新的思路。此外，该数据集还揭示了大型语言模型在复杂临床推理任务中的局限性，为未来模型改进提供了方向。

衍生相关工作

CMQCIC-Bench 数据集的发布推动了医疗领域大型语言模型研究的发展。基于该数据集，研究人员提出了多种改进方法，如半自动规则增强方法和临床事实推理规则（CF-IR）。这些方法在实际应用中表现出色，为医疗领域的大型语言模型推理能力提供了新的思路和方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集