Palliative Care Adversarial Dataset (PCAD)

Name: Palliative Care Adversarial Dataset (PCAD)
Creator: 伦敦大学国王学院, 加拿大蒙特利尔北岛大学社会卫生科学中心
Published: 2025-02-12 10:29:52
License: 暂无描述

arXiv2025-02-12 更新2025-02-26 收录

下载链接：

https://figshare.com/articles/dataset/Palliative_Care_Adversarial_Dataset_PCAD_/28396016

下载链接

链接失效反馈

官方服务：

资源简介：

Palliative Care Adversarial Dataset（PCAD）是由伦敦大学国王学院和加拿大蒙特利尔北岛大学社会卫生科学中心开发的两个对抗性数据集，旨在评估大型语言模型在缓和医疗中的偏见。该数据集包含100个对抗性问题（PCAD-Direct）和84对反事实场景（PCAD-Counterfactual），针对四个护理维度和三个身份轴设计，以揭示大型语言模型在缓和医疗中的偏见和公平性问题。

Palliative Care Adversarial Dataset (PCAD) is a pair of adversarial datasets developed by King's College London and the Centre for Social and Health Sciences at North Island University, Montreal, Canada. It is designed to evaluate biases of large language models (LLMs) in palliative care. This dataset contains 100 adversarial questions (PCAD-Direct) and 84 pairs of counterfactual scenarios (PCAD-Counterfactual), which are formulated based on four care dimensions and three identity axes to uncover biases and fairness-related issues of large language models in palliative care.

提供机构：

伦敦大学国王学院, 加拿大蒙特利尔北岛大学社会卫生科学中心

创建时间：

2025-02-12

搜集汇总

数据集介绍

构建方式

PCAD数据集由两部分组成：PCAD-Direct和PCAD-Counterfactual。PCAD-Direct包含100个对抗性问题，旨在测试LLM是否能够挑战这些偏见。每个问题都针对四个护理维度（获得护理、疼痛管理、预先护理计划和死亡地点偏好）中的一个问题。PCAD-Counterfactual包含84对临床场景，每个场景都配有一个问题，旨在评估当保护属性（如年龄、种族）被改变时结果的连贯性。

特点

PCAD数据集的特点在于它包含了针对特定身份轴（如种族、年龄和诊断）的对抗性和反事实场景。这使得数据集能够揭示LLM在处理敏感和复杂的医疗护理问题时可能存在的偏见。数据集的构建旨在测试LLM对偏见的挑战和纠正能力，以及它们在处理不同身份和护理维度时的一致性。

使用方法

PCAD数据集可用于评估和减轻大型语言模型（LLM）中的偏见。研究人员和开发人员可以使用这些数据集来测试LLM在不同身份和护理维度上的响应，并评估它们是否表现出偏见。通过这种方法，可以识别和纠正LLM中的潜在偏见，从而确保它们提供公正和准确的医疗建议。

背景与挑战

背景概述

临终关怀是一个旨在优化患者生活质量并缓解严重疾病患者痛苦的医学领域。然而，在该领域中，边缘化群体受到的偏见和不平等现象已被广泛记录，这影响了患者对高质量护理的获取和体验。大型语言模型（LLMs）如GPT-4o在医学领域的应用为临终关怀带来了机遇，例如在风险预测、诊断、临床笔记自动标注、翻译和决策支持工具方面。然而，这些模型在训练数据中存在偏见的风险。为了评估LLMs在临终关怀领域中的偏见，研究人员开发了一个名为Palliative Care Adversarial Dataset (PCAD)的数据集。该数据集包括两个子集：PCAD-Direct和PCAD-Counterfactual，它们旨在揭示LLM生成的响应中的偏见和不平等现象。PCAD-Direct包含100个对抗性问题，而PCAD-Counterfactual包含84对临床场景。这些数据集针对四个护理维度（护理获取、疼痛管理、预先护理规划和死亡地点偏好）和三个身份轴（民族、年龄和诊断）。研究人员使用经过验证的偏见评估标准，由三位临终关怀专家评估了GPT-4o的响应。研究结果表明，在对抗性问题和反事实场景中，LLM生成的响应中存在显著偏见。这些发现强调了在LLM生成的响应中解决偏见以确保所有患者的平等护理的紧迫性。

当前挑战

PCAD数据集的创建和使用揭示了LLMs在临终关怀领域中的偏见问题，但也带来了一些挑战。首先，LLMs在训练数据中可能存在的偏见可能会被放大或传播，从而对临床决策和护理平等性产生负面影响。其次，构建PCAD数据集的过程中，研究人员面临着如何设计对抗性和反事实问题以揭示LLMs中的偏见和如何评估这些响应的挑战。此外，PCAD数据集仅针对GPT-4o进行了测试，因此其发现可能不适用于其他LLMs。最后，评估LLM响应的偏见程度时，研究人员面临着评估者之间的一致性较低的挑战。为了应对这些挑战，研究人员提出了通过使用多样化的训练数据集、算法去偏技术和人工监督等方法来减轻LLMs中的偏见的策略。此外，PCAD数据集可以用于评估和减轻未来LLM开发中的偏见。

常用场景

经典使用场景

该数据集被用于评估大型语言模型（LLM）在姑息治疗领域中的偏见问题。通过使用对抗性设计的PCAD数据集，研究者能够系统地评估LLM在姑息治疗回答中是否存在偏见。这些数据集涵盖了姑息治疗的四个关键维度，包括获得护理的机会、疼痛管理、预先护理计划和对死亡地点的偏好，以及三个身份轴，包括种族、年龄和诊断。

实际应用

PCAD数据集的实际应用场景包括评估和减轻大型语言模型在姑息治疗中的偏见。这些数据集可以帮助研究人员开发更公平和准确的医疗保健决策支持工具，从而提高患者护理的质量和公平性。此外，这些数据集还可以用于教育和培训医疗保健专业人员，帮助他们更好地理解和应对姑息治疗中的偏见问题。

衍生相关工作

PCAD数据集的衍生相关工作包括开发其他用于评估和减轻大型语言模型偏见的工具和框架。例如，Equitable AI Research Roundtable (EARR) 开发了一套工具箱，用于检测大型语言模型中的健康公平性问题。此外，PCAD数据集还可以用于开发更公平和准确的医疗保健决策支持工具，以及教育和培训医疗保健专业人员，以应对姑息治疗中的偏见问题。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集