five

CLIMB

收藏
arXiv2024-07-07 更新2024-07-12 收录
下载链接:
https://github.com/uscnlp-lime/climb
下载链接
链接失效反馈
官方服务:
资源简介:
CLIMB数据集由南加州大学、加州大学洛杉矶分校和加州大学戴维斯分校共同创建,旨在评估大型语言模型在临床决策中的内在和外在偏见。该数据集包含94739条临床诊断数据,来源于MIMIC-IV数据库中的去标识化电子健康记录。数据集的创建过程结合了ICD-10-CM代码和人口统计信息,通过引入新的评估指标AssocMAD来量化模型在不同人口统计群体中的表现差异。CLIMB数据集主要应用于医疗领域的偏见评估,旨在提高临床决策的公平性和准确性。

The CLIMB dataset was co-developed by the University of Southern California, University of California, Los Angeles, and University of California, Davis, aiming to evaluate the intrinsic and extrinsic biases of large language models in clinical decision-making. This dataset comprises 94,739 clinical diagnostic records sourced from de-identified electronic health records (EHRs) in the MIMIC-IV database. Its construction process integrates ICD-10-CM codes and demographic information, and introduces a novel evaluation metric, AssocMAD, to quantify the performance disparities of models across different demographic groups. The CLIMB dataset is primarily applied for bias assessment in the healthcare field, with the goal of enhancing the fairness and accuracy of clinical decision-making.
提供机构:
南加州大学;加州大学洛杉矶分校;加州大学戴维斯分校
创建时间:
2024-07-07
原始信息汇总

CLIMB: A Benchmark of Clinical Bias in Large Language Models

数据集概述

  • 名称: CLIMB
  • 全称: A Benchmark of Clinical Bias in Large Language Models

发布计划

  • 代码和数据: 即将发布
搜集汇总
数据集介绍
main_image_url
构建方式
CLIMB数据集旨在评估大型语言模型在临床决策任务中的内在和外在偏差。内在偏差评估通过使用改进的隐含联想测试(IAT)方法,其中诊断和人口群体被用作属性和目标,而人口群体的名称被用作刺激物。为了量化内在偏差,引入了新的度量AssocMAD,该度量使用平均绝对偏差(MAD)来衡量多个目标群体之间的关联差异。外在偏差评估通过在给定的临床背景下更改人口统计信息,并测量模型在诊断预测任务上的性能差异来进行。
使用方法
使用CLIMB数据集的方法包括两个主要步骤:内在偏差评估和外在偏差评估。内在偏差评估涉及计算不同人口群体与诊断之间的关联得分,并使用AssocMAD度量标准来量化这些得分之间的差异。外在偏差评估涉及更改人口统计信息,并测量模型在诊断预测任务上的性能变化。CLIMB数据集还包括了多种人口统计属性,如性别、种族和保险类型,使得偏差评估更加全面。
背景与挑战
背景概述
大型语言模型(LLMs)在临床决策中的应用日益增多,但它们潜在的偏见可能对临床公平性构成重大风险。目前,缺乏系统评估LLMs中临床偏见的基准。CLIMB(Clinical Bias in Large Language Models的缩写)是一个开创性的全面基准,用于评估LLMs在临床决策任务中的内在(模型内部)和外在(下游任务)偏见。该数据集由来自南加州大学、加州大学洛杉矶分校和加州大学戴维斯分校的研究人员创建,旨在解决临床决策中LLMs的偏见问题,并设定了评估LLMs临床偏见的新标准。
当前挑战
CLIMB数据集面临的挑战包括:1) 所解决的领域问题,即LLMs在临床决策中的偏见;2) 构建过程中遇到的挑战,例如确保医学适应的LLMs不会引入新的偏见问题,以及缺乏专家标注的无偏见参考数据,这使自动评估变得复杂。此外,在临床决策中,还需要区分特定人群的诊断与真实偏见,这是一个复杂的约束设置。
常用场景
经典使用场景
CLIMB 数据集作为评估大型语言模型在临床决策中是否存在偏差的基准,被广泛应用于医疗健康领域。通过评估模型的内在和外在偏差,CLIMB 有助于揭示模型在处理临床数据时可能存在的性别、种族等人口统计学特征的偏见。该数据集的核心应用场景包括但不限于:1)评估模型的内在偏差,即模型在表示层面对不同人口统计学特征的固有偏见;2)评估模型的外在偏差,即在下游临床决策任务中,当人口统计学信息发生变化时,模型性能的差异。
解决学术问题
CLIMB 数据集解决了大型语言模型在临床决策中可能存在的偏差问题。通过引入一个名为 AssocMAD 的新型指标,该数据集能够评估模型在不同人口统计学群体之间的代表性差异。此外,CLIMB 还通过反事实干预评估模型在临床诊断预测任务中的外在偏差。这些评估方法为研究者在医疗健康领域开展公平性和偏差研究提供了重要的数据基础。
实际应用
CLIMB 数据集的实际应用场景包括但不限于:1)医疗健康领域的研究人员可以使用该数据集评估大型语言模型在临床决策中的偏差,以促进模型的公平性和可靠性;2)医疗机构的决策者可以使用该数据集评估其使用的模型是否存在偏差,以便及时调整和优化模型;3)模型的开发者和工程师可以使用该数据集来设计和开发更公平、更可靠的大型语言模型。
数据集最近研究
最新研究方向
CLIMB数据集是专门用于评估大型语言模型在临床决策任务中表现出的临床偏差的基准。该数据集的前沿研究方向主要集中在评估LLMs的内隐和外显偏差。内隐偏差指的是模型内部知识表示中固有的、未意识到的偏差,而外显偏差则是指模型在下游任务中的表现受到特定使用案例影响所导致的偏差。CLIMB引入了一种新的度量标准AssocMAD,用于评估LLMs在多个人口群体中存在的差异。此外,该数据集还利用反事实干预来评估临床诊断预测任务中的外显偏差。通过在Mistral和LLaMA系列中流行的和医疗适应的LLMs上的实验,CLIMB揭示了这些模型普遍存在的内隐和外显偏差行为。这项工作强调了缓解临床偏差的必要性,并为进一步评估LLMs的临床偏差设定了新的标准。
相关研究论文
  • 1
    CLIMB: A Benchmark of Clinical Bias in Large Language Models南加州大学;加州大学洛杉矶分校;加州大学戴维斯分校 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作