HEALIX
收藏arXiv2026-03-20 更新2026-03-21 收录
下载链接:
https://github.com/MaddieBitt/HEALIX
下载链接
链接失效反馈官方服务:
资源简介:
HEALIX是由美国国家医学图书馆联合多机构开发的全球首个公开临床笔记健康素养标注数据集,包含来自MIMIC-III数据库的589条跨9种类型的临床笔记,通过社工笔记抽样、关键词过滤及大模型主动学习三重策略构建。数据集采用三级标注体系(低/正常/高健康素养),旨在解决传统健康素养筛查工具在电子健康记录中难以结构化记录的痛点,为自然语言处理模型开发提供基准资源,可应用于患者教育干预、住院再入院率预测等医疗决策支持场景。
提供机构:
美国国家医学图书馆; 麻省理工学院; 延世大学医学院; 贝斯以色列女执事医疗中心; 纽约市健康+医院·林肯医院
创建时间:
2026-03-20
原始信息汇总
HEALIX数据集概述
数据集名称
HEALIX
核心用途
用于从临床记录中识别患者健康素养信息。
访问方式
需要通过Physionet进行凭证访问。
数据文件
- 主要数据文件:
healix.json
加载方法
使用提供的脚本加载
执行命令:python loading_HEALIX.py
在自定义脚本中加载
python from loading_HEALIX import load_healix data = load_healix("HEALIX.json")
运行环境要求
- Python 3.x
搜集汇总
数据集介绍

构建方式
在临床信息学领域,健康素养的自动化识别面临标注数据稀缺的挑战。HEALIX数据集的构建采用了多阶段策略,首先从MIMIC-III数据库中随机抽取了300份社工记录作为初始样本,因其更可能包含相关叙述。随后,研究团队基于关键词列表对临床记录进行过滤,并提取关键词所在句子及其上下文以捕获语境信息。为进一步提升样本多样性,研究引入了基于大语言模型的主动学习框架,利用LLaMA 3-8B-Instruct模型对记录进行初步分类,并选择预测熵值最高的200份记录加入标注池,最终通过双人独立标注与复核流程,形成了包含589份临床记录的标注数据集。
特点
该数据集作为首个公开的基于临床叙述的健康素养标注资源,其核心特点体现在标注体系与数据构成上。HEALIX依据广泛使用的健康素养筛查工具,定义了低、正常、高三个细粒度标签,并包含无关类别,以覆盖临床叙述中的多样表达。数据涵盖社工、护理、出院摘要等九类记录,其中社工记录占比最高,反映了此类文本在捕捉患者行为与认知语境方面的信息密度。数据集中患者人口统计学特征呈现多样性,以急诊患者为主,年龄集中于60-69岁,保险类型以私人和医疗保险居多,这为探究健康素养在不同群体中的分布提供了实证基础。
使用方法
该数据集主要服务于自然语言处理模型在临床文本分类任务中的训练与评估。研究者可基于HEALIX开展健康素养水平的自动识别研究,例如通过零样本或小样本提示策略评估大语言模型的性能,或对预训练模型进行微调以提升分类精度。数据集中提供的句子级与文档级标注支持不同粒度的分析,有助于模型学习从直接陈述或间接叙述中推断健康素养信息。此外,数据集的标注协议与严格的质量控制流程可作为相关领域构建类似资源的参考范式,推动健康素养计算评估方法的发展。
背景与挑战
背景概述
健康素养作为影响患者预后的关键因素,其自动化评估在临床信息学领域具有重要价值。HEALIX数据集由美国国家医学图书馆、麻省理工学院等机构的研究团队于2026年创建,旨在填补从非结构化临床文本中提取健康素养信息的标注资源空白。该数据集基于MIMIC-III重症监护数据库,通过社工笔记抽样、关键词过滤与大语言模型主动学习相结合的策略构建,包含589份临床笔记,标注了低、正常、高三种健康素养等级。作为首个公开的临床笔记健康素养标注数据集,HEALIX为自然语言处理模型在健康素养自动检测方面的训练与评估提供了基础资源,推动了临床决策支持系统在患者分层干预中的发展。
当前挑战
HEALIX数据集致力于解决从临床笔记中自动识别患者健康素养水平的领域挑战,其核心在于对非结构化文本中隐含、间接且语境依赖的健康素养信息进行准确分类。构建过程中的挑战主要体现在数据标注的复杂性:健康素养在临床叙述中常以微妙语言呈现,如“对计划理解有限”或“患者知晓病情”,要求标注者具备深厚的临床知识以区分认知障碍与健康素养不足。此外,数据采样需平衡笔记类型与语言多样性,而主动学习策略的引入虽提升了样本代表性,但模型对高健康素养与正常素养的区分仍存在较高不确定性,这反映了语义细微差别捕捉的固有难度。
常用场景
经典使用场景
在临床信息学领域,HEALIX数据集为自然语言处理模型提供了评估和训练的基础资源,尤其在健康素养自动检测任务中展现出核心价值。该数据集通过标注临床笔记中的健康素养水平,支持研究者开发文本分类算法,以识别患者对医疗信息的理解能力。其经典应用场景包括利用大型语言模型进行零样本或少样本提示学习,验证模型在复杂临床语境下的分类性能,为健康素养的自动化筛查提供可靠的技术基准。
实际应用
在实际医疗场景中,HEALIX数据集支持开发临床决策辅助工具,帮助医护人员识别健康素养较低的患者群体。通过自动分析临床笔记中的叙述性内容,系统能够及时标记出需要额外教育干预的患者,从而优化医疗资源分配,降低再入院率并改善患者预后。此类工具可集成到电子健康记录系统中,为个性化患者管理和健康沟通策略提供数据驱动的见解。
衍生相关工作
HEALIX数据集的发布催生了一系列围绕健康素养自动检测的衍生研究。例如,基于该数据集的基准测试推动了大型语言模型在临床文本分类任务中的优化,激发了针对社会决定因素提取的多标签句子分类模型的进一步发展。相关研究还探索了结合关键词过滤与主动学习的混合数据标注方法,为其他医疗自然语言处理数据集的构建提供了方法论参考,拓展了健康信息技术在患者关怀中的应用边界。
以上内容由遇见数据集搜集并总结生成



