PrinciplismQA-Demo

github2025-10-12 更新2025-10-23 收录

下载链接：

https://github.com/FreedomIntelligence/PrinciplismQA-Demo

下载链接

链接失效反馈

官方服务：

资源简介：

PrinciplismQA-Demo提供了一个公开演示子集，包含来自PrinciplismQA基准的150个精选医疗伦理问题（100个多项选择题+50个开放式问题），用于透明度、可重复性和社区使用。该数据集包含知识型多项选择题和开放式问答，涵盖医疗伦理原则评估。

PrinciplismQA-Demo offers a publicly available demo subset consisting of 150 curated medical ethics questions (100 multiple-choice questions and 50 open-ended questions) extracted from the PrinciplismQA benchmark, intended to support transparency, reproducibility, and community utilization. This dataset encompasses knowledge-based multiple-choice questions and open-ended question answering tasks, covering the evaluation of medical ethics principles.

创建时间：

2025-10-12

原始信息汇总

PrinciplismQA-Demo 数据集概述

数据集简介

PrinciplismQA-Demo 是 PrinciplismQA 基准的公开演示子集，源自论文《Towards Assessing Medical Ethics from Knowledge to Practice》。该子集旨在促进透明度、可重复性和社区使用，完整版 PrinciplismQA 将在适当时候开源。

数据内容

文件结构

data/knowledge-mcqa.json：包含 100 道多项选择题（每题 4 个选项），选自 PrinciplismQA 的 MCQ 部分
data/open-ended-qa.json：包含 50 道开放式问答题目及其评分标准，选自开放式问答部分
data/open-ended-rubric-principles.json：包含所选开放式问题的医学伦理原则

数据格式

多项选择题格式

json { "id": "整数", "question_id": "整数", "question": "问题内容", "options": { "A": "选项A内容", "B": "选项B内容", "C": "选项C内容", "D": "选项D内容" }, "correct_answer": "正确答案", "explanation": "答案解析", "principlism": { "autonomy": "布尔值", "nonmaleficience": "布尔值", "beneficience": "布尔值", "justice": "布尔值" } }

开放式问题格式

json { "id": "整数", "tags": "JAMA定义的伦理主题列表", "title": "案例标题", "case": "案例背景描述", "ethical_issues": [ { "question": "问题内容", "keypoints": "评分要点列表" } ] }

评分原则格式

json { "id": "整数", "question": "问题标题", "principles": "该问题对应的原则列表", "keypoint_competencies": [ { "keypoint": "评分内容", "competency": "对应的ACGME能力" } ] }

使用目的

反驳/评审透明度：评审人员可检查代表性样本以理解模型行为或错误模式
社区检查和基线验证：研究人员可使用此子集快速验证方法、完整性测试或实验
基线种子/测试工具：在切换到完整数据集前作为小型验证集

使用说明

克隆或下载此存储库
使用 JSON 库加载 JSON 文件
对 MCQ 项目，向模型或人工标注者展示四个选项并检查预测答案是否匹配正确答案
对开放式项目，计算相似度/评分启发式或提示模型并将输出与答案/解释进行比较
可选按原则筛选以研究模型在特定医学伦理原则上的行为

许可信息

当前使用 MIT 许可证（涵盖代码、脚本和元数据）
允许为研究和教育目的使用、改编和重新分发包含的 JSON 项目
商业用途或大规模部署需联系作者讨论许可条款

引用要求

使用此子集时请引用： bibtex @misc{hong2025assessingmedicalethicsknowledge, title={Towards Assessing Medical Ethics from Knowledge to Practice}, author={Chang Hong and Minghao Wu and Qingying Xiao and Yuchi Wang and Xiang Wan and Guangjun Yu and Benyou Wang and Yan Hu}, year={2025}, eprint={2508.05132}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.05132}, }

搜集汇总

数据集介绍

构建方式

在医学伦理评估领域，PrinciplismQA-Demo数据集的构建采用了严谨的专家驱动方法。该数据集从完整的PrinciplismQA基准中精选出具有代表性的子集，包含100道多项选择题和50道开放式问答题。每道题目都经过专业医学伦理学者的精心设计，严格遵循四大伦理原则框架——自主性、无害性、有益性和公正性。多项选择题采用标准化的四选项结构，并配备详尽的答案解析；开放式问题则基于真实临床案例构建，每个案例都标注了JAMA定义的伦理主题标签，并设计了多层次评分标准。

特点

该数据集在医学伦理评估领域展现出独特的多维度特征。其核心优势在于同时涵盖知识型选择题和实践型开放式问题，能够全面评估从理论认知到实际应用的伦理能力。数据集采用模块化结构设计，三个JSON文件分别承载不同类型的数据：知识型选择题包含完整的选项、答案和原理解释；开放式问题提供详细的案例描述和评分要点；伦理原则映射文件则建立了问题与四大伦理原则及ACGME核心能力的对应关系。这种结构既保证了数据的完整性，又为不同研究需求提供了灵活的使用接口。

使用方法

针对医学伦理评估研究，该数据集提供了清晰的使用路径。研究者可通过标准JSON解析工具加载数据文件，根据评估目标选择相应的题目类型。对于多项选择题，可采用自动评分机制验证模型答案的正确性；开放式问题则建议结合评分要点进行语义相似度计算或专家人工评估。数据集支持按伦理原则进行筛选分析，便于深入研究模型在特定伦理维度上的表现。需要特别注意的是，该演示版本主要适用于方法验证和初步测试，正式评估建议等待完整基准发布后进行，以确保结果的全面性和可靠性。

背景与挑战

背景概述

医学伦理评估作为人工智能与临床实践交叉领域的重要研究方向，其核心在于构建能够系统衡量伦理决策能力的评估体系。PrinciplismQA-Demo数据集由研究团队于2025年创建，基于arXiv预印本论文《Towards Assessing Medical Ethics from Knowledge to Practice》提出，旨在通过四原则伦理框架（自主、不伤害、行善、公正）构建标准化医学伦理评估基准。该数据集通过多选与开放式问答形式，推动医疗人工智能在伦理推理能力上的可量化评估，为伦理敏感的临床决策支持系统提供关键验证工具。

当前挑战

医学伦理评估需解决临床情境中伦理原则的动态平衡问题，其挑战在于如何设计能捕捉复杂伦理冲突的评估指标，同时确保不同文化背景下伦理判断的一致性。在数据构建过程中，研究者面临医学案例伦理标注的主观性难题，需通过多专家共识机制降低标注偏差；此外，开放式问题的评分标准需兼顾原则契合度与临床实操性，而多模态伦理情境的建模则要求融合医学知识与伦理理论。

常用场景

经典使用场景

在医学伦理评估领域，PrinciplismQA-Demo数据集通过多项选择题和开放式问题相结合的形式，为评估人工智能模型在伦理决策能力提供了标准化测试框架。该数据集围绕自主、不伤害、行善和公正四大伦理原则构建，研究者可利用其验证模型对复杂医疗场景中伦理困境的理解深度，特别适用于检验模型在模拟真实临床决策时的原则遵循一致性。

实际应用

在医疗人工智能系统的开发过程中，该数据集可作为伦理审查的关键工具，帮助研发团队识别模型在临终关怀、资源分配等敏感场景中的伦理盲区。医疗机构可借助其开放式问题模块培训医务人员的伦理决策能力，而监管机构则可通过标准化测试验证临床辅助系统的伦理合规性，推动负责任人工智能在医疗领域的落地应用。

衍生相关工作

基于该数据集构建的评估范式已催生多项创新研究，包括开发结合伦理原则的强化学习框架、建立医疗对话系统的实时伦理检测机制等。相关研究进一步拓展至跨语言伦理评估体系构建，衍生出针对不同医疗体系的伦理基准测试，为全球范围内医疗人工智能的伦理标准化奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集