EMPEC

Name: EMPEC
Creator: 曼彻斯特大学国家文本挖掘中心
Published: 2024-06-17 16:40:36
License: 暂无描述

arXiv2024-06-17 更新2024-06-19 收录

下载链接：

https://github.com/zhehengluoK/eval_empec

下载链接

链接失效反馈

官方服务：

资源简介：

EMPEC是由曼彻斯特大学国家文本挖掘中心创建的大型医疗知识基准数据集，包含157,803个传统中文考试题目，覆盖124个科目和20种医疗职业。数据集内容丰富，涉及眼科医生、听力学家等常被忽视的职业。创建过程中，数据集通过严格的预处理步骤，确保质量和相关性。EMPEC的应用领域广泛，旨在评估大型语言模型在医疗领域的全面性能，解决现有基准在多样性和真实性方面的不足。

EMPEC is a large-scale medical knowledge benchmark dataset developed by the National Centre for Text Mining at the University of Manchester. It contains 157,803 traditional Chinese exam questions spanning 124 subjects and covering 20 medical professions. The dataset includes a diverse set of often-overlooked medical occupations such as ophthalmologists and audiologists. During its development, rigorous preprocessing procedures were implemented to ensure data quality and relevance. Boasting abundant content and wide-ranging application domains, EMPEC is designed to assess the comprehensive performance of large language models (LLMs) in the medical domain, addressing the limitations of existing benchmarks in terms of diversity and authenticity.

提供机构：

曼彻斯特大学国家文本挖掘中心

创建时间：

2024-06-17

搜集汇总

数据集介绍

构建方式

EMPEC数据集的构建依托于台湾地区专业与技术考试的官方题库，涵盖2011至2024年间20类医疗职业的124个科目。研究团队通过多阶段预处理确保数据质量：剔除依赖非文本信息（如图表）的试题，为共享题干的问题补充前提说明，过滤地域性过强或与医疗无关的科目（如《传统中国文学》），并采用MinHash算法去重。最终形成的157,803道选择题同时提供繁体与简体中文版本，通过分层抽样划分为训练集（149,603题）、验证集（200题）和测试集（8,000题），且每道题均标注发布时间和权威出处。

特点

作为当前最全面的医疗知识评估基准，EMPEC具有三大核心特征：广度上覆盖20类常被忽视的医疗职业（如验光师、听力师），较现有基准提升4倍职业多样性；深度上整合124个科目的专业内容，其中11类职业题目占比超6%，传统中医等冷门领域数据亦得到保留；质量上所有试题均经台湾考试主管部门审核发布，且附带可溯源的时间戳，既防止模型训练时的数据污染，又能动态纳入最新考题。独特的职业-科目双维度结构使其能精准检测语言模型在细分医疗领域的知识盲区。

使用方法

使用EMPEC时可进行三类核心评估：零样本测试直接考察模型对8,000道测试题的应答能力，重点关注在临床心理学家等优势职业与牙科技师等薄弱环节的表现差异；时间验证通过单独测试2024年新题（3,497题），检验模型对未见过考题的泛化能力；语言鲁棒性测试则对比同一模型在简繁体试题上的表现差异。研究证实，在此基准上微调Qwen1.5-7B可使准确率提升11%，说明其训练数据能有效增强模型的医疗知识。评估时需注意随机猜测基线准确率为25%，且不同职业的题目数量存在不均衡性。

背景与挑战

背景概述

EMPEC（Examinations for Medical Personnel in Chinese）是由曼彻斯特大学计算机科学系的研究团队于2024年推出的大规模医疗知识评测基准。该数据集由Luo Zheheng、Yuan Chenhan等学者主导开发，旨在填补现有医疗大语言模型评测基准的空白。传统评测基准如MedQA、MedBench等主要聚焦医师资格考试，而EMPEC创新性地覆盖了20类医疗职业（包括验光师、听力师等稀缺职业）的157,803道考题，涉及124个学科领域。作为首个基于繁体中文构建的综合性医疗评测体系，其考题均来自中国台湾地区官方发布的专业技术考试题库，每条数据均标注发布时间和来源，确保了数据的权威性和时效性。这一基准的建立为全面评估LLMs在多元医疗场景下的知识掌握程度提供了重要工具，推动了医疗AI向全科辅助方向发展。

当前挑战

构建EMPEC面临双重挑战：在领域问题层面，医疗问答存在专业深度与广度难以兼顾的困境，尤其是牙科技师、言语治疗师等冷门职业的专科知识覆盖不足，且传统中医等替代医学领域的语义理解具有特殊性；在构建技术层面，需处理繁体中文与简体中文的字符转换对模型性能的影响，通过MinHash算法消除12万道题目的语义重复项时需保持专业术语的准确性，同时确保2011-2024年间考题的时间分布均衡性。评测发现GPT-4在常见职业（医师/护士）准确率达75%以上，但在牙科技师（59.39%）、中医师（50.08%）等专业领域表现显著下降，暴露出LLMs在长尾医疗知识获取上的局限性。

常用场景

经典使用场景

在医疗人工智能领域，EMPEC数据集作为首个覆盖20种医疗职业的大规模中文知识基准，其经典应用场景主要体现在全面评估大型语言模型（LLMs）的跨专业医疗知识掌握程度。该数据集通过157,803道标准化试题，系统检验模型从临床心理学、放射技术到传统中医等124个学科领域的认知能力，尤其擅长揭示模型在验光师、听力师等小众职业领域的知识盲区，为医疗AI的泛化性研究提供了标准化测试平台。

衍生相关工作

EMPEC催生了医疗AI评估范式的系列创新研究。基于其构建的Qwen1.5-7B-SFT微调模型将准确率提升11%，验证了专业数据增强的有效性；相关研究进一步发现通用模型反超医疗专用模型的异常现象（如HuatuoGPT2-13B低于随机基线），推动了领域自适应训练方法的改进。该数据集还支撑了跨文字编码研究，证明简繁体转换对模型性能影响不足1%，为中文医疗AI的跨地区应用提供了语言学依据。

数据集最近研究