MedEthicsQA

Name: MedEthicsQA
Creator: 浙江大学和Angelalign Technology Inc.
Published: 2025-06-28 16:21:35
License: 暂无描述

arXiv2025-06-28 更新2025-07-02 收录

下载链接：

https://github.com/JianhuiWei7/MedEthicsQA

下载链接

链接失效反馈

官方服务：

资源简介：

MedEthicsQA是一个全面的评估医疗伦理的大型语言模型（MedLLM）的问答基准。该数据集包含5623个多项选择题和5351个开放式问题，用于评估MedLLM的伦理安全性。数据集整合了全球医疗伦理标准，包括广泛使用的医疗数据集、权威题库和来自PubMed文献的场景。通过多阶段过滤和多方面专家验证的严格质量控制，确保数据集的可靠性，错误率低至2.72%。该数据集旨在解决现有医疗语言模型在医疗伦理方面的不足，确保其在提供安全临床辅助方面的道德准则遵守。

MedEthicsQA is a comprehensive question answering benchmark for evaluating large language models dedicated to medical ethics (MedLLMs). This dataset comprises 5,623 multiple-choice questions and 5,351 open-ended questions, designed to assess the ethical safety of MedLLMs. It integrates global medical ethics standards, incorporating widely adopted medical datasets, authoritative question banks, and scenarios extracted from PubMed literature. Rigorous quality control workflows, including multi-stage filtering and multi-faceted expert validation, have been implemented to guarantee the dataset's reliability, with an error rate as low as 2.72%. This benchmark aims to address the shortcomings of existing medical language models in medical ethics, ensuring their adherence to ethical guidelines when delivering safe clinical assistance.

提供机构：

浙江大学和Angelalign Technology Inc.

创建时间：

2025-06-28

原始信息汇总

MedEthicsQA数据集概述

数据集简介

名称：MedEthicsQA
类型：医疗伦理问答评估基准
用途：用于评估大型语言模型(LLMs)在医疗伦理领域的表现

数据集组成

主要文件

MedEthicsQA_MCQ.json
- 格式：JSON (UTF-8编码)
- 内容：多项选择题子集
MedEthicsQA_open.zip
- 格式：压缩文件
- 内容：开放式问题子集
taxonomy.json
- 内容：提出的分层分类法结构

评估脚本

calculate_acc.py
- 功能：计算多项选择题的准确率
calculate_ratings.py
- 功能：计算开放式问题的评分
evaluate_MCQ_api.py
- 功能：多项选择题的推理文件
evaluate_open-ended_api.py
- 功能：开放式问题的推理文件
open-ended-LLM-as-Judge.py
- 功能：评估LLM对开放式问题的回答与真实答案的匹配度

引用信息

bibtex @misc{wei2025medethicsqacomprehensivequestionanswering, title={MedEthicsQA: A Comprehensive Question Answering Benchmark for Medical Ethics Evaluation of LLMs}, author={Jianhui Wei and Zijie Meng and Zikai Xiao and Tianxiang Hu and Yang Feng and Zhijie Zhou and Jian Wu and Zuozhu Liu}, year={2025}, eprint={2506.22808}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.22808}, }

搜集汇总

数据集介绍

构建方式

MedEthicsQA数据集的构建采用了多层次、系统化的方法。首先，研究团队整合了全球医学伦理标准，建立了4P-26C-256G分级分类体系（4项核心原则-26个类别-256条细则）。数据来源包括广泛使用的医学问答数据集、权威医学题库以及PubMed文献中的伦理场景。通过多阶段过滤流程（包括基于共识的伦理相关性分类、语义去重和难度筛选）处理了29,000个候选多选题，最终获得5,623道高质量多选题。同时，基于2,100篇PubMed文献，通过大语言模型生成并筛选出5,351道开放式问题，所有问题均经过包含问题质量、相关性和正确性三个维度的专家验证，最终错误率控制在2.72%。

特点

该数据集具有三个显著特征：1）全面性，涵盖10,974道题目（5,623多选题+5,351开放式题），全面覆盖医学伦理的4项核心原则及其26个子类；2）国际视野，分类体系整合了六大洲权威医学组织的256条伦理准则；3）高质量保障，通过多模型共识分类、语义去重（余弦相似度阈值0.85）和22.4%样本的专家验证，确保数据可靠性。特别值得注意的是，数据揭示了医学伦理关注度的不对称分布——患者中心类问题占比达68.7%，而医生权益类仅占12.3%。

使用方法

使用该数据集时，建议采用双轨评估策略：对于多选题直接计算准确率（Accuracy），对于开放式问题采用基于检查表的LLM-as-Judge方法（GPT-4o-mini作为评分器），将参考答案的关键点作为评分依据。整体伦理得分（ES）为两项得分的均值。评估时需注意模型表现的领域差异——实验显示医学大模型在伦理问题上平均比基础模型低4.4个百分点，这种“微调税”现象提示需要平衡医学知识学习与伦理对齐。数据集支持细粒度分析，可按照4项核心原则或26个子类分别评估模型表现。

背景与挑战

背景概述

MedEthicsQA是由浙江大学的研究团队于2025年提出的一个综合性医疗伦理问答基准数据集，旨在评估大型语言模型在医疗伦理方面的表现。该数据集包含5,623道选择题和5,351道开放式问题，涵盖了全球医疗伦理标准的多层次分类体系。数据集构建过程中整合了广泛使用的医疗数据集、权威题库以及PubMed文献中的场景，并通过多阶段过滤和多方面专家验证确保了数据的可靠性，错误率仅为2.72%。MedEthicsQA的提出填补了医疗伦理评估领域的空白，为医疗大型语言模型（MedLLMs）的伦理安全性提供了重要的评估工具。

当前挑战

MedEthicsQA面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，数据集旨在解决医疗伦理评估中的复杂性和多样性问题，包括如何在不同的医疗伦理场景中保持一致性、如何处理伦理冲突以及如何确保模型的输出符合伦理标准。构建过程中的挑战包括数据收集的广泛性和代表性、多阶段过滤的质量控制、以及专家验证的复杂性和成本。此外，数据集的构建还需要克服医疗伦理问题的敏感性和多样性带来的挑战，确保数据集的全面性和可靠性。

常用场景

经典使用场景

在医学伦理评估领域，MedEthicsQA数据集为大型语言模型（LLMs）的伦理安全性提供了全面的评估基准。该数据集包含5,623道多选题和5,351道开放式问题，覆盖了全球医疗伦理标准的广泛场景。通过系统化的分层分类法（4P-26C-256G），数据集能够深入评估模型在医疗伦理问题上的表现，尤其是在临床决策中的伦理合规性。

衍生相关工作

MedEthicsQA催生了一系列医学伦理对齐的研究，例如基于该数据集开发的MedSafetyBench（Han et al., 2024a）和CAREQA（Xia et al., 2024）。这些工作进一步细化了伦理评估维度，如将毒性检测、过度谨慎行为等纳入指标体系。同时，数据集的层级分类法被Ong等人（2024b）扩展为“AI-医师-患者”三方伦理框架，推动了跨学科医学伦理研究的发展。

数据集最近研究