m720/SHADR

Name: m720/SHADR
Creator: m720
Published: 2023-12-01 14:42:34
License: 暂无描述

Hugging Face2023-12-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/m720/SHADR

下载链接

链接失效反馈

官方服务：

资源简介：

社会健康决定因素（SDoH）在决定患者结果中起着关键作用，但在电子健康记录（EHR）中的记录仍然不完整。该数据集源自一项研究，该研究探讨了大语言模型从EHR的自由文本部分提取SDoH的能力，并研究了合成临床文本在提取这些关键但记录不足的临床数据中的潜力。数据集通过使用GPT-4在合成数据中注入人口统计描述符，并进行了手动验证。数据集包含419个提及SDoH的句子，253个提及不良SDoH的句子，其余标记为NO_SDoH。模型评估指令包括在原始句子上运行模型推理，然后在人口统计修改的句子上进行推理，并进行鲁棒性比较。当前性能指标显示，最佳模型在SDoH和不良SDoH上的宏F1分数分别为88%和84%，鲁棒性率分别为9.9%和14.3%。

The SHADR dataset was created from a study examining the capability of large language models in extracting Social Determinants of Health (SDoH) from the free text sections of Electronic Health Records (EHRs). The study also delved into the potential of synthetic clinical text to bolster the extraction process of these scarcely documented, yet crucial, clinical data. The dataset was enhanced by using GPT-4 to infuse demographic descriptors into synthetic data and underwent manual validation, including 419 sentences with mentions of SDoH, 253 with mentions of adverse SDoH, and the remainder tagged as NO_SDoH. The dataset is used to evaluate model performance on original and demographic-modified sentences to compare robustness.

提供机构：

m720

原始信息汇总

SDoH Human Annotated Demographic Robustness (SHADR) Dataset

概述

社会决定因素健康（SDoH）在决定患者结果方面起着关键作用。然而，它们在电子健康记录（EHR）中的记录仍然不完整。该数据集是从一项研究中创建的，该研究考察了大型语言模型从EHR的自由文本部分提取SDoH的能力。此外，该研究深入探讨了合成临床文本在增强这些记录稀少但至关重要的临床数据提取过程方面的潜力。

数据集结构与修改

为了理解高性能模型和那些在通用文本上预训练的模型中的潜在偏差，使用GPT-4将人口统计描述符注入到我们的合成数据中。

例如：

原始句子："Widower admits fears surrounding potential judgment…"
修改后的句子：“Hispanic widower admits fears surrounding potential judgment..."

这些注入了人口统计信息的句子经过了手动验证。其中：

419条提及了SDoH
253条提及了不良SDoH
其余被标记为NO_SDoH

模型评估指南

首先，在原始句子上运行模型推理。
然后，将相同的模型应用于人口统计修改后的句子进行推理。
进行鲁棒性比较。

关于“不良”标签的详细理解，请参考https://arxiv.org/pdf/2308.06354.pdf。在这里，不良列标记了标签是否对应于“不良”或“非不良”SDoH。

当前性能指标

最佳模型性能：
- 任何SDoH：88% Macro-F1
- 不良SDoH：84% Macro-F1
鲁棒性率：
- 任何SDoH：9.9%
- 不良SDoH：14.3%

搜集汇总

数据集介绍

构建方式

在医疗信息学领域，社会健康决定因素（SDoH）的识别对提升患者预后至关重要。SHADR数据集的构建基于一项探索大型语言模型从电子健康记录自由文本中提取SDoH能力的研究。通过GPT-4模型，研究团队将人口统计学描述符注入合成的临床文本中，例如在原始句子中加入种族标识，生成如“Hispanic widower admits fears...”的修改句。这些经过人工验证的句子被分类为包含SDoH、不良SDoH或无SDoH，共计形成数千条数据，旨在评估模型在人口统计学变化下的鲁棒性。

特点

SHADR数据集聚焦于社会健康决定因素的提取与鲁棒性分析，其核心特点体现在人口统计学增强的文本设计上。数据集包含原始句子与经人工验证的人口统计学修改句子，例如添加种族、性别等描述符，以模拟真实临床文本中的多样性。数据标注精细区分了SDoH的存在与否及是否属于不良类别，如不良SDoH标签对应负面健康影响。当前最佳模型在SDoH识别上达到88%的宏F1分数，但鲁棒性率较低，突显了模型在面对人口统计学变异时的挑战，为医疗自然语言处理研究提供了关键基准。

使用方法

SHADR数据集的使用旨在评估模型在社会健康决定因素提取任务中的性能与鲁棒性。研究人员首先对原始句子运行模型推理，获取SDoH识别结果；随后，将同一模型应用于人口统计学修改后的句子，进行对比分析以检测偏差。数据集中包含的“adverse”列可用于区分不良与非不良SDoH，具体定义可参考相关学术文献。通过这种双重评估流程，用户能够量化模型在人口统计学变化下的稳定性，推动医疗人工智能系统向更公平、可靠的方向发展。

背景与挑战

背景概述

在医疗健康信息学领域，社会健康决定因素（SDoH）对患者预后具有深远影响，但其在电子健康记录中的记载常显不足。2023年，由哈佛大学等机构的研究团队创建的SHADR数据集应运而生，旨在探索大型语言模型从电子健康记录自由文本中提取SDoH的潜力。该数据集通过人工标注与合成临床文本相结合，聚焦于识别包括不利SDoH在内的关键临床信息，为健康公平性研究和临床决策支持系统提供了重要的数据基础，推动了医疗自然语言处理向更具社会洞察力的方向发展。

当前挑战

SHADR数据集致力于解决从非结构化电子健康记录中自动识别社会健康决定因素这一复杂任务，其核心挑战在于模型对人口统计学描述符的鲁棒性不足，现有最佳模型在不利SDoH识别上的宏F1分数仅为84%，且面对人口统计学信息注入的文本时，鲁棒性率低至14.3%。在构建过程中，研究团队需克服合成数据中人口统计学描述符的合理融入与人工验证的难题，确保标注的准确性，同时应对电子健康记录中SDoH记载稀疏且表述多样的固有困难，这要求标注体系既能捕捉细微的语义差异，又能保持临床相关性。

常用场景

经典使用场景

在医疗信息学领域，SHADR数据集为评估大型语言模型从电子健康记录自由文本中提取社会健康决定因素的能力提供了基准。该数据集通过人工标注的合成临床文本，模拟了真实医疗文档中SDoH信息稀疏且分布不均的场景，使得研究者能够系统测试模型在识别患者社会人口学特征及健康状况关联因素方面的性能。其经典应用聚焦于自然语言处理模型在医疗文本分类任务中的鲁棒性验证，特别是针对模型在面对人口统计学描述符注入时的稳定性分析。

衍生相关工作

基于SHADR数据集的评估范式，衍生出了一系列关注算法公平性与临床NLP鲁棒性的研究工作。例如，相关研究探索了对抗性训练、领域自适应等方法来提升模型在不同人口亚群中的泛化能力。同时，该数据集与PhysioNet发布的标注MIMIC-III语料库相互补充，共同促进了开源医疗文本资源生态的建设，为后续开发更细粒度的SDoH本体标注体系及多模态健康数据分析框架奠定了数据基础。

数据集最近研究