医学伦理与安全问答数据集

Name: 医学伦理与安全问答数据集
Creator: 上海人工智能实验室
Published: 2025-05-12 11:28:05
License: 暂无描述

arXiv2025-05-12 更新2025-05-14 收录

下载链接：

http://arxiv.org/abs/2505.07205v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含12,000个问答项的医学伦理与安全问答数据集，旨在测试LLM在医学伦理和患者安全场景下的表现。数据集涵盖20个维度（11个伦理话题和9个安全话题），通过专家咨询和政策指南分析来捕捉现实世界的困境。每个问题都是一个现实的医疗场景或咨询，挑战LLM在伦理或安全问题上的判断，并配有一个参考的“最佳实践”答案。数据集经过了专家验证，确保场景的现实性和“黄金标准”答案的一致性。该数据集旨在帮助评估当前LLM在伦理和安全方面的表现，并为医疗机构提供有效的治理框架，以系统地降低LLM在医疗实践中的伦理和安全风险。

This dataset is a medical ethics and safety question-answering dataset containing 12,000 Q&A pairs, designed to test the performance of large language models (LLMs) in medical ethics and patient safety scenarios. It covers 20 dimensions, including 11 ethics topics and 9 safety topics, capturing real-world dilemmas through expert consultations and policy guideline analyses. Each question is a realistic medical scenario or consultation, which challenges the judgment of LLMs on ethical or safety issues, and is accompanied by a reference "best practice" answer. The dataset has been expert-validated to ensure the realism of the scenarios and the consistency of the "gold standard" answers. This dataset aims to assist in evaluating the current performance of LLMs in terms of ethics and safety, and provide effective governance frameworks for medical institutions to systematically mitigate the ethical and safety risks of LLMs in medical practice.

提供机构：

上海人工智能实验室

创建时间：

2025-05-12

搜集汇总

数据集介绍

构建方式

医学伦理与安全问答数据集的构建过程体现了严谨的学术规范与多学科交叉融合的特点。研究团队通过整合医学伦理学专家咨询、临床实践指南分析以及政策法规文本挖掘，构建了包含12,000个问答对的基准数据集。每个问题均基于真实医疗场景设计，涵盖11个伦理维度和9个安全维度，并由临床医师和医学伦理学家进行双重验证，确保问题设计的临床相关性和参考答案的权威性。数据采集过程特别注重平衡不同医疗场景的覆盖广度，最终形成的问答对既包含典型临床情境，也纳入了边缘案例和伦理困境场景。

使用方法

该数据集主要服务于医疗大语言模型的系统性评估与优化研究。研究者可通过标准化的评估协议，使用该数据集对模型进行零样本测试或微调实验。具体实施时，建议采用分层抽样的方式从20个维度中均衡选取测试用例，并配合专业的医学评价小组进行人工验证。对于模型开发方，数据集可作为监督学习的训练素材，但需注意保持训练集与测试集的严格分离。在医疗场景的实际部署前，建议将该数据集作为必选的安全测试套件，通过预设的通过阈值来确保模型输出的临床可靠性。

背景与挑战

背景概述

医学伦理与安全问答数据集由上海人工智能实验室于2025年发布，旨在评估中国医疗大语言模型在伦理与安全维度的表现。该数据集包含12,000项涵盖11个伦理维度和9个安全维度的医疗场景问答，响应了《健康中国2030》战略对医疗AI治理的迫切需求。作为首个系统性评估中文医疗LLM伦理安全能力的基准，其创新性地将医学伦理学原则转化为可量化指标，为医疗机构提供了AI治理的重要工具。核心研究团队通过整合教材、政策文献与法律法规，构建了具有临床真实性的测试场景，显著提升了Qwen2.5-32B等主流模型在伦理决策准确率（提升19%），推动了医疗AI从技术效能向责任伦理的范式转变。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决医疗LLM产生的幻觉内容、隐私泄露风险及不安全医疗建议等核心问题，现有模型在公平性（60%准确率）和偏倚缓解等维度表现欠佳；在构建过程中，需平衡20个伦理安全维度的场景覆盖度与专业性，确保12,000项问答既符合临床实际又具备政策合规性。数据标注依赖医学伦理专家与临床医师的双重验证，在保持场景真实性与答案权威性之间面临巨大协调成本。此外，医疗伦理的地域差异性要求数据集必须适配中国医疗体系特色，这增加了国际标准本土化的复杂度。

常用场景

经典使用场景

医学伦理与安全问答数据集作为评估医疗领域大型语言模型伦理与安全风险的核心工具，其经典应用场景体现在系统性测试模型在复杂医疗情境下的决策能力。该数据集通过涵盖患者隐私、知情同意、临床准确性等20个维度的12000个问答对，为研究者提供了标准化评估框架，尤其适用于模型在涉及伦理困境时的表现分析，例如当患者家属要求隐瞒病情时模型的响应策略。

解决学术问题

该数据集有效解决了医疗AI领域两大核心学术问题：一是量化评估模型在伦理规范遵循方面的缺陷，如基线模型仅42.7%的准确率揭示了现有系统的不足；二是验证领域自适应方法的有效性，通过微调使Qwen2.5-32B模型准确率提升至50.8%，为医疗LLMs的伦理对齐研究提供了实证基础。其多维度分类体系更推动了细粒度风险识别研究的发展。

实际应用

在实际医疗场景中，该数据集已成为医院AI治理体系的关键组件。上海等地医疗机构将其纳入预部署测试流程，用于筛查LLMs在电子病历咨询、临床决策支持等场景中的潜在风险。数据集衍生的评估协议帮助医院伦理委员会建立AI审查标准，其包含的用药安全、诊断准确性等测试案例可直接用于临床AI系统的持续监测。

数据集最近研究