five

MedPerturb

收藏
arXiv2025-06-21 更新2025-06-24 收录
下载链接:
https://github.com/abinithago/MedPerturb
下载链接
链接失效反馈
官方服务:
资源简介:
MedPerturb数据集旨在系统地评估医疗大语言模型(LLM)在受控的临床输入扰动下的表现。数据集包含800个临床场景,这些场景在性别、语言风格和格式上进行扰动,每个场景都有来自四个LLM和三位人类专家的输出。数据集创建过程包括三个阶段:首先,对基准临床场景进行性别、风格和格式的扰动;其次,对每个扰动场景收集来自LLM的响应;最后,收集人类专家对每个场景的响应。数据集可用于测量LLM对不同扰动的敏感性,人类判断对不同扰动的敏感性,以及LLM和人类决策之间的差异。该数据集对于评估医疗LLM在临床环境下的表现具有重要意义。

The MedPerturb dataset aims to systematically evaluate the performance of medical large language models (LLMs) under controlled clinical input perturbations. The dataset comprises 800 clinical scenarios, which are perturbed in terms of gender, linguistic style and format. Each scenario has outputs from four LLMs and three human experts. The dataset creation process consists of three stages: first, perturbing the baseline clinical scenarios in terms of gender, style and format; second, collecting responses from LLMs for each perturbed scenario; and finally, collecting responses from human experts for each scenario. The dataset can be used to measure the sensitivity of LLMs to various perturbations, the sensitivity of human judgments to such perturbations, and the discrepancies between LLM and human decision-making. This dataset is of great significance for evaluating the performance of medical LLMs in clinical settings.
提供机构:
麻省理工学院
创建时间:
2025-06-21
原始信息汇总

MedPerturb 数据集概述

数据集基本信息

  • 项目名称: MedPerturb
  • 项目网站: https://abinithago.github.io/MedPerturb/
  • Hugging Face Hub地址: https://huggingface.co/datasets/abinitha/MedPerturb
  • 许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)

数据集内容

  • 主要数据文件:
    • data.csv: 数据集主文件
    • clinician_demographics.csv: 临床医生人口统计数据
  • 案例研究:
    • case_study1.ipynb: 论文中的案例研究1(示例分析)
    • case_study2.ipynb: 论文中的案例研究2(示例分析)

主要功能

  • 临床文本扰动: 支持通过大型语言模型(LLMs)对临床文本进行性别、风格或观点扰动
  • 模型评估: 评估LLMs在分诊问题(MANAGE、VISIT、RESOURCE)上的表现
  • 支持的模型: GPT-4、Llama-3-8B、Llama-3-70B、Palmyra-Med

使用方法

  1. 扰动临床文本: bash python code/perturb_data.py --text "临床文本示例" --dataset oncqa --perturbation viewpoint --variant multiturn --output results.json

    • 支持扰动类型: genderstylisticviewpoint
  2. 评估模型: bash python code/evaluate_models.py --model gpt-4 --patient_info "患者信息示例" --output eval_results.json

项目结构

MedPerturb/ ├── code/ │ ├── perturb_data.py # 临床文本扰动脚本 │ ├── evaluate_models.py # 模型评估脚本 │ ├── utils.py # 实用函数 ├── case_studies/ │ └── case_study1.ipynb # 案例研究1 │ └── case_study2.ipynb # 案例研究2 ├── .env # 环境变量文件 ├── data.csv # 数据集 ├── clinician_demographics.csv # 临床医生人口统计数据 ├── README.md # 项目文档 ├── requirements.txt # Python依赖项

环境要求

  • 环境变量:

    HuggingFace token

    HF_TOKEN=your_huggingface_token_here

    OpenAI API token

    OPENAI_API_KEY=your_openai_token_here

搜集汇总
数据集介绍
main_image_url
构建方式
MedPerturb数据集通过系统性地对临床输入进行受控扰动构建而成,旨在评估医学大型语言模型(LLMs)和人类在临床决策中的差异。数据集包含涵盖多种病理学的临床小故事,每个小故事沿三个轴进行变换:性别修改(如性别交换或性别移除)、风格变化(如不确定的措辞或口语化语气)以及格式更改(如LLM生成的多轮对话或摘要)。通过这一构建过程,MedPerturb发布了800个基于真实输入变异的临床情境,四个LLM的输出,以及每个临床情境的三位人类专家阅读结果。
使用方法
MedPerturb数据集的使用方法包括评估医学LLMs在受控扰动下的表现,比较人类和LLMs在治疗决策中的差异,以及研究非临床信息扰动对决策的影响。研究人员可以利用数据集中的临床情境、LLM输出和人类标注结果,进行案例研究或开发新的评估框架。数据集还提供了详细的统计测试和协议,帮助用户理解和分析数据。
背景与挑战
背景概述
MedPerturb数据集由麻省理工学院和康奈尔大学的研究团队于2025年创建,旨在系统评估医学大型语言模型(LLMs)在临床输入受控扰动下的表现。该数据集包含涵盖多种病理学的临床案例,通过性别修改、风格变化和格式更改三个维度进行转换。MedPerturb的发布为研究医疗LLMs在真实临床环境中的稳健性和公平性提供了重要资源,推动了医疗AI评估框架的发展。
当前挑战
MedPerturb数据集面临的挑战主要包括:1) 领域问题挑战:解决医疗LLMs在非临床信息变化(如性别、语言风格和格式)下与临床医生决策差异的问题;2) 构建过程挑战:在保持临床内容不变的情况下,系统生成和验证各种扰动案例,确保数据集的多样性和真实性。此外,数据集的构建还需处理隐私和伦理问题,确保敏感临床信息的匿名化和合规使用。
常用场景
经典使用场景
MedPerturb数据集在评估医疗大型语言模型(LLMs)的临床鲁棒性方面具有重要应用。该数据集通过系统性地对临床输入进行性别、语言风格和格式的扰动,模拟真实临床环境中的语言多样性。研究人员可以利用MedPerturb来比较人类临床医生和LLMs在相同扰动条件下的治疗决策差异,从而揭示模型在面对非临床信息变化时的敏感性和偏差。
解决学术问题
MedPerturb解决了医疗LLMs评估中的关键问题,包括模型对非临床信息(如性别、语言风格)的敏感性,以及人类与模型决策之间的差异。该数据集提供了一个标准化的框架,用于评估模型在真实临床环境中的鲁棒性,填补了现有基准测试(如医学执照考试题目)与真实临床实践之间的差距。此外,它还帮助识别模型可能存在的偏见和不一致性,为改进模型的公平性和可靠性提供了依据。
实际应用
在实际应用中,MedPerturb可用于医疗LLMs的预发布测试,确保模型在真实临床环境中的表现符合预期。医疗机构可以利用该数据集评估模型在不同语言风格和格式输入下的稳定性,从而减少因模型敏感性问题导致的误诊或资源分配不均。此外,该数据集还可用于培训临床医生,帮助他们理解AI模型的决策模式,促进人机协作的优化。
数据集最近研究
最新研究方向
随着医疗大语言模型(LLMs)在临床环境中的广泛应用,MedPerturb数据集为系统评估这些模型在受控扰动下的表现提供了重要资源。该数据集通过性别修改、风格变化和格式转换三个维度对临床案例进行扰动,揭示了LLMs与人类临床医生在决策上的差异。研究发现,LLMs对性别和风格扰动更为敏感,而人类专家则对LLM生成的格式变化更为敏感。这些发现强调了评估框架的重要性,需要超越静态基准,以更全面地评估LLMs在临床环境中的稳健性和公平性。MedPerturb数据集的发布为研究者和开发者提供了一个模块化、可扩展的框架,用于深入探究人类与AI在临床决策中的分歧,并为模型的优化和部署提供了重要参考。
相关研究论文
  • 1
    The MedPerturb Dataset: What Non-Content Perturbations Reveal About Human and Clinical LLM Decision Making麻省理工学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作