Synth-SBDH

Name: Synth-SBDH
Creator: 麻省大学阿默斯特分校信息与计算机科学学院
Published: 2024-06-10 15:03:36
License: 暂无描述

arXiv2024-06-10 更新2024-06-12 收录

下载链接：

https://github.com/avipartho/Synth-SBDH

下载链接

链接失效反馈

官方服务：

资源简介：

Synth-SBDH是一个由麻省大学阿默斯特分校信息与计算机科学学院和美国退伍军人事务部联合创建的合成数据集，专注于社会和行为健康决定因素（SBDH）。该数据集包含8,767个样本，覆盖15个SBDH类别，并提供详细的注释理由。创建过程中，利用大型语言模型（LLM）GPT-4生成数据，并通过人工监督确保数据质量。Synth-SBDH的应用领域广泛，旨在通过自动化提取SBDH信息，改善患者护理和人群健康管理，特别是在资源有限的环境中显示出其有效性。

Synth-SBDH is a synthetic dataset jointly created by the School of Information and Computer Sciences at the University of Massachusetts Amherst and the United States Department of Veterans Affairs, focusing on Social and Behavioral Determinants of Health (SBDH). The dataset contains 8,767 samples covering 15 SBDH categories, and provides detailed annotation rationales. During its development, the large language model (LLM) GPT-4 was utilized to generate the data, with human supervision employed to ensure data quality. Synth-SBDH has a wide range of application scenarios, aiming to improve patient care and population health management through automated extraction of SBDH information, and its effectiveness has been particularly demonstrated in resource-constrained environments.

提供机构：

麻省大学阿默斯特分校信息与计算机科学学院

创建时间：

2024-06-10

搜集汇总

数据集介绍

构建方式

在临床文本分析领域，社会与行为健康决定因素（SBDH）的自动提取依赖于高质量数据集，但现有资源在公开性与覆盖范围上存在局限。Synth-SBDH的构建采用了一种创新的合成数据生成框架，其过程始于专家定义的15个SBDH类别及45个种子示例。随后，利用大型语言模型GPT-4，基于精心设计的提示模板迭代生成合成临床文本片段，每个片段均包含详细的SBDH标注，涵盖存在状态、时间信息和标注理由。为确保数据多样性，生成后通过ROUGE-L相似度阈值进行过滤，最终形成包含8,767个示例的数据集，其中20%的测试集经过专家人工评审，以提供高质量的评估基准。

特点

Synth-SBDH作为当前最大的公开SBDH数据集，其显著特点在于广泛的类别覆盖与丰富的标注维度。数据集囊括了从食物不安全、住房问题到暴力、法律问题等15个核心SBDH类别，超越了以往数据集的范畴。每个标注不仅指示SBDH的存在与否，还提供了时间性（当前或历史）以及生成理由，这种多维标注结构增强了数据的解释性与模型的可训练性。此外，数据集平均序列长度较短，标注跨度较长，模拟了真实临床笔记的简洁表达，同时通过专家评审的测试集确保了标注质量，为人机对齐评估提供了可靠依据。

使用方法

Synth-SBDH的设计支持多种自然语言处理任务，展现了出色的通用性与知识蒸馏潜力。在应用层面，数据集可适配于多标签分类和命名实体识别任务，通过预处理将合成数据转换为相应格式，进而用于模型微调。研究实践表明，先使用Synth-SBDH进行预训练，再在真实世界临床数据集上继续微调，能显著提升模型性能，尤其在稀有SBDH类别上效果突出。此外，数据集独有的标注理由可用于蒸馏逐步推理框架，辅助小型语言模型提升推理能力。数据集已公开提供，包括训练、开发和测试分割，支持研究者直接用于模型开发与评估。

背景与挑战

背景概述

在医疗健康研究领域，社会与行为健康决定因素（SBDH）对患者预后具有深远影响，其信息常记录于临床文本中。为推进从电子健康记录中自动提取SBDH的自然语言处理技术，麻省大学阿默斯特分校与美国退伍军人事务部的研究团队于2024年共同创建了Synth-SBDH数据集。该数据集旨在解决现有SBDH数据在公开可用性与覆盖范围上的显著局限，通过大语言模型生成包含15个SBDH类别、状态、时间信息及标注依据的合成临床文本。作为当前规模最大的公开SBDH数据集，Synth-SBDH为模型训练提供了高质量资源，显著提升了在真实临床数据上的检测性能，对推动健康公平性研究和精准医疗干预具有重要价值。

当前挑战

Synth-SBDH致力于解决的领域核心挑战是从非结构化的临床文本中精准识别多元化的社会与行为健康决定因素，这是一项涉及细粒度分类与语义理解的自然语言处理任务。在数据集构建过程中，研究团队面临多重挑战：一是真实电子健康记录数据因隐私敏感而获取受限，且大规模人工标注成本高昂；二是需确保合成数据在语义多样性和临床真实性之间取得平衡，避免大语言模型生成重复或偏离实际语境的内容；三是需设计严谨的专家评估流程以验证合成标注的质量与一致性，并为罕见SBDH类别提供足够的学习样本以应对真实数据中的类别不平衡问题。

常用场景

经典使用场景

在临床自然语言处理领域，Synth-SBDH数据集最经典的应用场景是作为训练资源，用于构建和优化从电子健康记录文本中自动提取社会与行为健康决定因素的模型。该数据集通过提供涵盖15个SBDH类别的合成临床笔记，有效模拟了真实医疗文档中关于食物安全、住房稳定、社会关系、暴力经历等复杂社会行为因素的叙述方式。研究人员利用其丰富的标注信息，包括状态、时间性和标注依据，能够训练模型识别临床文本中隐含的非医学健康影响因素，为后续的流行病学分析和个性化医疗干预提供数据基础。

衍生相关工作

Synth-SBDH催生了一系列围绕合成临床数据效用的创新研究。其多任务评估框架启发了后续工作探索合成数据在罕见类别识别、低资源环境适应以及知识蒸馏等方面的潜力。例如，基于该数据集构建的模型在MIMIC-SBDH和VA-SBDH等真实数据集上展现出显著的性能提升，尤其对样本稀少的住房不稳定类别识别效果改善显著。相关工作进一步扩展了分步蒸馏框架，将标注依据作为辅助任务，提升了小模型在生成式命名实体识别中的推理能力。这些衍生研究共同推动了合成数据在临床信息学中的方法论进步与可信部署。

数据集最近研究