ScAN: Suicide Attempt and Ideation Events Dataset
收藏arXiv2022-05-13 更新2024-06-21 收录
下载链接:
https://github.com/bsinghpratap/ScAN
下载链接
链接失效反馈官方服务:
资源简介:
ScAN数据集是由麻省大学阿默斯特分校创建的,专注于自杀尝试和自杀意念事件的大型公开数据集。该数据集包含超过12,759份电子健康记录(EHR)笔记,涵盖了19,690个专家标注的自杀相关事件,如自杀尝试(SA)和自杀意念(SI)。数据集的创建过程涉及从MIMIC-III数据集中筛选相关记录,并通过专家标注确保数据质量。ScAN数据集主要用于医疗专业人员进行自杀行为的监测和预测,旨在通过早期干预减少自杀事件的发生。
Created by the University of Massachusetts Amherst, the ScAN dataset is a large-scale public dataset dedicated to suicide attempt and suicidal ideation events. This dataset contains over 12,759 electronic health record (EHR) notes and encompasses 19,690 expert-annotated suicide-related events, including suicide attempt (SA) and suicidal ideation (SI). The development of the ScAN dataset involved screening relevant records from the MIMIC-III dataset and ensuring data quality through expert annotation. The ScAN dataset is primarily intended for medical professionals to conduct monitoring and prediction of suicidal behaviors, with the goal of reducing the incidence of suicide events via early intervention.
提供机构:
麻省大学阿默斯特分校
创建时间:
2022-05-13
搜集汇总
数据集介绍

构建方式
在精神健康与公共卫生领域,准确识别电子健康记录中的自杀行为信息对于风险评估与早期干预至关重要。ScAN数据集的构建基于公开的MIMIC-III临床数据库,通过筛选与自杀及药物过量相关的ICD编码,确定了697次住院记录,涵盖12,759份临床笔记。由资深医师指导的专业标注员对这些笔记进行了细致的人工标注,共标记了19,690个自杀企图与自杀意念事件实例,并记录了如自杀方法等属性。标注过程注重质量控制,通过随机抽样验证确保了标注的一致性,最终形成了以住院期间为单位的、句子级别的事件标注数据集。
特点
ScAN数据集的核心特点在于其规模与标注深度。作为目前公开领域中规模最大的自杀行为专项数据集,它包含了超过1.9万个经过专家验证的事件标注,覆盖了自杀企图与自杀意念两种关键行为类型。数据集不仅提供了事件存在性的二元标签,还细致区分了正面、负面及不确定等多种证据类别,并整合了基于ICD编码的自杀方法属性。其标注单元精细至句子级别,为模型理解临床文本的细微语境提供了丰富信息。所有数据均源自公开的MIMIC-III数据库,确保了研究的可复现性与公平比较的基础。
使用方法
该数据集主要用于开发和评估自然语言处理模型,以自动化地从电子健康记录中检测自杀相关证据。典型的使用流程分为两个阶段:首先,利用数据集的句子级标注训练证据检索模型,从临床笔记的段落中识别出提及自杀行为的文本片段;随后,基于检索出的所有证据段落,训练一个住院级别的预测模型,以判断患者在整个住院期间是否确实存在自杀企图或意念。研究者可按公开划分的训练、验证与测试集进行模型训练与性能评估,其提供的基线模型ScANER采用了基于RoBERTa的多任务学习与多头注意力架构,为后续研究设立了可靠的性能基准。
背景与挑战
背景概述
在公共卫生领域,自杀行为作为全球主要死因之一,其早期识别与干预一直是临床研究的核心议题。ScAN(自杀企图与意念事件数据集)由马萨诸塞大学阿默斯特分校、罗切斯特大学及美国退伍军人事务部的研究团队于2022年共同构建,旨在通过自然语言处理技术从电子健康记录中精准检测自杀企图与意念事件。该数据集基于公开的MIMIC-III临床数据库,涵盖超过1.2万份医疗笔记及1.9万条专家标注事件,不仅提供了事件类型标注,还包含自杀方法等属性信息。ScAN的创建填补了该领域大规模公开数据集的空白,为自杀风险监测与预测模型的开发奠定了重要基础,推动了临床决策支持系统的智能化发展。
当前挑战
在自杀行为检测领域,主要挑战在于电子健康记录中相关信息的稀疏性与语义复杂性。传统方法依赖结构化诊断编码,但研究表明其仅能捕获少量事件,大量关键信息隐匿于非结构化文本中,导致模型泛化能力受限。构建ScAN数据集时,研究人员面临标注一致性与数据平衡性的双重难题:自杀事件在临床笔记中分布不均,且涉及不确定或否定表述的实例需依赖领域专家进行精细判别,以确保标注的临床可靠性。此外,数据集中事件类别的严重不平衡,如自杀企图中负面与不确定案例的稀缺性,对机器学习模型的稳健训练提出了更高要求。
常用场景
经典使用场景
在精神健康与公共卫生研究领域,ScAN数据集为自然语言处理技术在电子健康记录分析中的应用提供了关键资源。该数据集最经典的使用场景是训练和评估机器学习模型,以自动识别临床文本中的自杀企图与自杀意念事件。通过从大量去标识化的医疗笔记中提取结构化标注,研究者能够构建精准的分类器,用于从复杂叙事中区分积极、消极及不确定的自杀行为证据,从而支持临床决策系统的开发。
实际应用
在实际医疗场景中,ScAN数据集支持构建自动化监测工具,用于实时筛查电子健康记录中的自杀风险信号。这类工具可集成至医院信息系统,辅助临床医生快速识别高危患者,及时启动干预措施。例如,通过分析入院记录、护理笔记和出院摘要,系统能够预警潜在的自杀企图或意念,从而优化预防策略,降低医疗疏忽风险,提升公共卫生响应效率。
衍生相关工作
基于ScAN数据集,衍生了一系列聚焦于自杀行为检测的经典研究工作。例如,其基线模型ScANER采用多任务学习的RoBERTa架构,结合检索与预测模块,为后续研究提供了强健的基准。此外,该数据集激发了针对临床文本中时序断言、多模态数据融合及跨机构泛化能力的探索,推动了如心理健康风险预测、临床叙事理解等方向的技术创新与模型优化。
以上内容由遇见数据集搜集并总结生成



