five

MedEthicEval|医学伦理数据集|自然语言处理数据集

收藏
arXiv2025-03-04 更新2025-03-06 收录
医学伦理
自然语言处理
下载链接:
https://github.com/X-LANCE/MedEthicEval
下载链接
链接失效反馈
资源简介:
MedEthicEval是由上海交通大学计算机科学与工程学院X-LANCE Lab开发的,用于评估大型语言模型在医学伦理领域的基准数据集。该数据集包含629个条目,涵盖了医学伦理的三个应用场景:明显违反医学伦理的案例、具有明确倾向性的优先级困境和没有明显解决方案的平衡困境。数据集的构建目的是为了系统地评估LLM在医学伦理领域的知识掌握和应用能力,旨在推动LLM在医疗领域负责任和有效的应用。
提供机构:
上海交通大学计算机科学与工程学院X-LANCE Lab
创建时间:
2025-03-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
MedEthicEval 数据集的构建方式独具匠心。该数据集由四部分组成,分别为知识、检测违规、优先困境和均衡困境。知识部分通过从现有公开数据集中提取医学伦理相关的问题,利用 Qwen2.5 模型进行生成和专家审核,确保了问题的准确性和相关性。在应用部分,研究人员与医学专家合作,从医学伦理教材和指南中提取关键主题,并映射相关伦理原则,然后利用 Qwen2.5 生成各种伦理违规案例和伦理困境场景。为了全面评估模型的能力,数据集采用了不同的攻击提示,以模拟不同复杂性和伦理挑战的情况。在生成案例后,医学专家对案例和查询进行审核和细化,以确保其与医学场景和伦理指南的一致性。
特点
MedEthicEval 数据集具有以下特点:首先,它涵盖了医学伦理的多个维度,包括明显的伦理违规、具有明确倾向的优先困境和没有明显解决方案的均衡困境。其次,数据集考虑了不同的医学环境,例如紧急护理、临终决策和公共卫生干预,确保了伦理原则和其优先级在不同场景下的适用性。最后,MedEthicEval 数据集为医学伦理领域提供了一个全面的评估框架,它不仅评估了模型对医学伦理原则的理解和记忆,还评估了模型将这些原则应用于现实场景的能力。
使用方法
使用 MedEthicEval 数据集时,首先需要了解数据集的四个部分及其各自的特点。其次,根据评估目的选择合适的部分进行测试。例如,如果想要评估模型对医学伦理原则的理解,可以选择知识部分;如果想要评估模型在特定伦理困境中的决策能力,可以选择检测违规、优先困境或均衡困境部分。在评估过程中,可以根据实际情况选择不同的攻击提示,以模拟不同复杂性和伦理挑战的情况。最后,根据模型在数据集上的表现,可以对其医学伦理能力进行综合评估,并为模型的进一步改进提供指导。
背景与挑战
背景概述
随着大型语言模型(LLMs)在医疗保健领域的应用日益广泛,对其在医疗伦理方面的理解能力的需求也随之增加。MedEthicEval是一个由上海交通大学、蚂蚁集团、复旦大学和德克萨斯大学阿灵顿分校的研究人员共同开发的基准数据集,旨在系统地评估LLMs在医疗伦理领域的应用能力。该数据集的创建背景是当前医疗保健领域对LLMs的伦理推理能力缺乏充分评估,尤其是在复杂的伦理决策场景中。MedEthicEval框架包含两个关键组成部分:知识评估和应用评估。知识评估评估模型对医疗伦理原则的理解和掌握程度,应用评估则关注模型将这些原则应用于不同场景的能力。为了支持这一基准,研究人员与医疗伦理专家合作,开发了三个数据集,分别针对明显的医疗伦理违规、有明显倾向的优先级困境以及没有明显解决方案的均衡困境。MedEthicEval为理解和评估LLMs在医疗保健中的伦理推理能力提供了一个关键工具,为其在医疗环境中的负责任和有效使用铺平了道路。
当前挑战
MedEthicEval数据集面临的挑战包括:1) LLMs在理解和应用医疗伦理原则方面的挑战,尤其是在复杂的伦理决策场景中;2) 构建数据集过程中遇到的挑战,包括如何全面覆盖医疗伦理的各个方面,以及如何在不同医疗环境中区分伦理原则和优先级。为了应对这些挑战,MedEthicEval采用了精细的评估框架,并开发了三个全新的伦理数据集,分别针对三个评估维度进行评估。此外,数据集的构建过程中还涉及到如何确保数据的一致性和可靠性,以及如何避免数据泄露等问题。
常用场景
经典使用场景
MedEthicEval数据集主要用于评估大型语言模型(LLMs)在医疗伦理领域的理解和应用能力。该数据集涵盖了医疗伦理的多个维度,包括知识掌握和应用场景。知识部分评估模型对医疗伦理原则和概念的理解和记忆,而应用部分则评估模型在实际医疗场景中应用这些知识的能力。数据集包含三个子集:检测违规、优先困境和平衡困境,分别对应不同的医疗伦理挑战。
衍生相关工作
MedEthicEval数据集的推出,推动了医疗伦理评估领域的相关研究。例如,基于该数据集,可以进一步研究LLMs在不同文化背景下的伦理推理能力,以及如何根据不同的医疗场景调整评估标准。此外,该数据集还可以用于开发新的评估工具和方法,以更准确地评估LLMs的伦理推理能力。
数据集最近研究
最新研究方向
在医疗领域,大型语言模型(LLMs)的伦理应用能力成为研究热点。MedEthicEval数据集的提出,旨在评估LLMs在处理医疗伦理问题上的能力,填补了现有数据集在复杂医疗场景和伦理原则平衡评估方面的不足。该数据集通过构建知识评估和应用评估两部分,全面考察LLMs对医疗伦理原则的理解和应用能力。在应用评估中,MedEthicEval设计了三种场景:明显违反医疗伦理、具有明确倾向的优先级困境和没有明显解决方案的平衡困境,以测试LLMs在不同情况下的伦理推理能力。该数据集的提出,不仅为LLMs在医疗领域的伦理应用提供了评估标准,也为医疗伦理教育、研究和实践提供了新的思路。
相关研究论文
  • 1
    MedEthicEval: Evaluating Large Language Models Based on Chinese Medical Ethics上海交通大学计算机科学与工程学院X-LANCE Lab · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

CHARLS

中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录