MedBench

Name: MedBench
Creator: 华东师范大学
Published: 2023-12-20 15:01:49
License: 暂无描述

arXiv2023-12-20 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2312.12806v1

下载链接

链接失效反馈

官方服务：

资源简介：

MedBench是一个大规模的中文医学基准数据集，由华东师范大学和上海人工智能实验室共同创建。该数据集包含40,041个问题，来源于真实的医学考试练习和多学科医学报告。数据集内容涵盖中国医学执照考试、住院医师规范化培训考试、主治医师资格考试及实际临床案例，旨在评估医学语言学习模型在知识掌握和推理能力方面的表现。数据集的创建过程严格遵循医学标准和实践，确保数据的真实性和有效性。该数据集主要应用于医学研究领域，旨在解决医学大型语言模型评估标准不统一的问题。

MedBench is a large-scale Chinese medical benchmark dataset co-created by East China Normal University and the Shanghai AI Lab. The dataset encompasses 40,041 questions derived from actual medical examination practice and multidisciplinary medical reports. It covers the Chinese Medical Licensing Examination, Resident Physician Training Examination, Chief Physician Qualification Examination, and real clinical cases, aiming to evaluate the performance of medical language learning models in terms of knowledge acquisition and reasoning abilities. The creation process of the dataset strictly adheres to medical standards and practices, ensuring the authenticity and validity of the data. Primarily applied in the field of medical research, this dataset aims to address the issue of the lack of unified evaluation standards for large-scale medical language models.

提供机构：

华东师范大学

创建时间：

2023-12-20

搜集汇总

数据集介绍

构建方式

MedBench数据集的构建旨在提供一个全面且真实的中国医疗领域大语言模型评估标准。该数据集由来自真实考试的练习和医学报告中的40,041个问题组成，涵盖了包括中医和西医在内的多个医学分支。数据集的核心组件包括中国医师资格考试、住院医师规范化培训考试、主治医师资格考试和真实的临床病例，涉及检查、诊断和治疗。MedBench的构建不仅考虑了医生在中国大陆的学习和临床实践过程，而且还采用了专家注释的电子健康记录（EHRs）和最新的考试练习，以确保数据的质量和相关性。

特点

MedBench数据集的特点在于其真实性和新颖性，它完全利用了专家注释的EHRs和最新的考试练习，以减少数据污染。此外，MedBench的全面性和多面性体现在其设计上，它与中国医疗标准和实践相一致，通过结合三阶段的跨学科考试和真实的临床病例。实用性方面，通过对临床真实世界病例的人类评估，确保了与医学实践的现实相符，而MedBench中的难度分层划分使得快速评估成为可能。

使用方法

使用MedBench数据集进行评估时，可以采用多种方式。首先，可以使用准确率作为评估指标来评估LLMs在三个阶段的考试中的表现。对于真实的临床病例，可以将专家级别的人类评估与自动评估指标BLEU和ROUGE相结合。此外，还可以使用Item Response Theory (IRT)来进一步优化评估过程，通过将问题按照其内在难度梯度进行分类，以更细致地匹配LLMs的推理能力和问题的难度水平。通过这种方式，可以更有效地评估LLMs在不同难度级别上的表现，从而提供更全面的评估结果。

背景与挑战

背景概述

在医疗领域，大型语言模型（LLMs）的出现为各种实际应用带来了巨大潜力，尤其是在辅助医生进行临床诊断和疾病预防方面。随着众多中国医疗LLMs的涌现，如HuaTuo、ChatMed、BianQue等，对统一评估标准的需求日益凸显。为了解决这个问题，研究人员引入了MedBench，一个涵盖40,041个问题的中文医疗领域综合基准，这些问题来源于真实的考试练习和多样化的医学分支的医疗报告。MedBench由四个关键部分组成：中国医师资格考试、住院医师规范化培训考试、主治医师资格考试和真实世界的临床案例，包括检查、诊断和治疗。这个基准模拟了中国大陆医生的教育进阶和临床实践经验，为评估医疗语言学习模型的知识掌握和推理能力提供了一个可靠的基准。

当前挑战

尽管MedBench为医疗LLMs的评估提供了宝贵的资源，但它也面临一些挑战。首先，中文医疗LLMs在该基准上的表现不如预期，这表明需要显著提高临床知识和诊断精度。其次，一些通用领域的LLMs在医疗知识方面表现出色，这揭示了LLMs在MedBench环境中的能力和局限性。此外，构建MedBench的过程中，研究人员面临了数据收集和注释的挑战，以确保数据的真实性和新颖性。最后，评估模型和指标的选择也提出了挑战，因为需要找到能够全面评估LLMs临床知识和推理能力的最佳方法。

常用场景

经典使用场景

MedBench数据集为中文医疗领域的大型语言模型（LLMs）提供了一个全面的评估基准，其包含40,041个问题，来源于真实的医学考试练习和医疗报告。这个基准由四个关键组成部分构成：中国医师资格考试、住院医师规范化培训考试、主治医师资格考试以及包含检查、诊断和治疗的真实临床案例。MedBench旨在模拟中国大陆医生的学术进步和临床实践经验，从而成为评估医疗语言学习模型知识掌握和推理能力的一个可靠基准。通过MedBench，研究者可以深入分析LLMs在不同医学分支中的表现，并识别出LLMs在临床知识和诊断精度方面的不足。

衍生相关工作

MedBench数据集的提出，激发了更多相关研究。研究者开始关注LLMs在医疗领域的应用，并探索如何利用LLMs来提高医疗服务的质量和效率。一些研究者开始探索如何利用LLMs来进行医学知识的推理和决策支持，例如，通过分析患者的病史和临床表现，LLMs可以提供诊断建议和治疗方案。此外，一些研究者也开始探索如何利用LLMs来进行医疗文本的自动摘要和翻译，以提高医疗文本的处理效率。这些研究都基于MedBench数据集，旨在推动医疗领域的LLMs的研究和应用，为医生提供更好的辅助工具，提高医疗服务的质量和效率。

数据集最近研究