AF Recurrence Dataset

Name: AF Recurrence Dataset
Creator: University of the Basque Country, Bilbao, Biscay, Spain; Basurto University Hospital, Bilbao, Biscay, Spain
Published: 2025-05-21 01:31:05
License: 暂无描述

arXiv2025-05-21 更新2025-05-22 收录

下载链接：

http://arxiv.org/abs/2505.14643v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由巴斯克大学和巴斯克大学医院的研究人员创建，旨在预测心房颤动（AF）的复发。数据集包含1508名患者的文档化AF发作记录，并使用自然语言处理技术将结构化和非结构化临床数据相结合，以生成描述患者健康状况的表格数据。数据集通过将结构化电子健康记录（EHR）数据与自由文本出院报告相结合，克服了传统临床评分在预测AF复发方面的局限性。该数据集可用于评估传统临床评分、机器学习模型和大型表格模型（LTM）的预测性能，并探索性别和年龄对AF复发预测的影响。

This dataset was developed by researchers from the University of the Basque Country and the University of the Basque Country Hospital, with the primary objective of predicting the recurrence of atrial fibrillation (AF). It includes documented AF episode records from 1508 patients, and leverages natural language processing (NLP) techniques to integrate both structured and unstructured clinical data, thereby generating tabular data that characterizes patients' health status. By combining structured electronic health record (EHR) data with free-text discharge reports, this dataset addresses the limitations of traditional clinical scoring systems in predicting AF recurrence. Furthermore, it can be utilized to assess the predictive performance of traditional clinical scoring systems, machine learning models, and large tabular models (LTM), as well as to investigate the effects of gender and age on AF recurrence prediction.

提供机构：

University of the Basque Country, Bilbao, Biscay, Spain; Basurto University Hospital, Bilbao, Biscay, Spain

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

AF Recurrence Dataset的构建采用了多源数据融合的策略，通过整合结构化电子健康记录（EHR）与非结构化的出院报告，形成丰富的表格化数据。具体流程分为三个关键步骤：首先基于医院商业智能系统筛选AF编码患者；其次通过自然语言处理技术（NLP）从出院报告中提取临床特征，包括正则表达式过滤和语言模型验证；最后通过向量合并工具整合结构化与非结构化数据，生成描述患者健康状况的综合特征向量。该过程特别设计了双重验证机制以降低编码错误率，并采用自动标注流程确定AF复发状态，最终形成包含1,508名患者的银标准训练集和人工标注测试集。

特点

该数据集的核心特点体现在多维度的临床信息覆盖与高质量标注策略上。其1,256个特征涵盖人口统计学、实验室检测、心血管参数、合并症及用药记录等六大类，尤其通过NLP补充了左心房尺寸等未编码的关键预后指标。数据时间跨度独特，聚焦AF首次发作后1个月至2年的复发预测窗口，填补了现有研究空白。63%的复发率与临床流行病学特征相符，并通过死亡患者和90岁以上人群的排除增强了数据可靠性。值得注意的是，数据集通过结构化与非结构化数据的交叉验证实现了97.81%的AF发作识别准确率，且自动标注与人工审核的一致性达83%，为机器学习模型提供了高质量的监督信号。

使用方法

该数据集专为AF复发预测的机器学习任务设计，支持三类典型应用场景：首先可作为基准测试平台，用于比较临床评分系统（如CHADS2-VASc）、传统机器学习模型（SVM/XGBoost）与新兴大表格模型（如TabPFN）的性能；其次支持性别与年龄偏倚分析，包含独立的男/女子集和75岁以下患者子集，便于评估模型泛化能力；研究者需注意数据使用规范，结构化数据需进行中位数插补和标准化，而非结构化文本特征可直接输入NLP管道。实验设计推荐采用5折交叉验证，并以MCC和ROC-AUC作为核心指标，重点关注模型在特异性与阳性预测值间的平衡。

背景与挑战

背景概述

AF Recurrence Dataset是由巴斯克公立医疗系统（Osakidetza）提供的一个临床数据集，专注于预测心房颤动（AF）在初次发作后1个月至2年内的复发情况。该数据集由Ane G. Domingo-Aldama等研究人员于2025年创建，结合了结构化电子健康记录（EHR）数据和自由文本出院报告，通过自然语言处理（NLP）技术提取关键临床变量。其核心研究问题是开发一种预测模型，以最小化标注工作量并提高AF复发的预测准确性。该数据集在心血管疾病早期诊断领域具有重要影响力，特别是在AF复发预测方面填补了现有研究的空白。

当前挑战

AF Recurrence Dataset面临的挑战主要包括：1) 领域问题的挑战：AF复发预测的复杂性，包括时间窗口的扩展（1个月至2年）以及AF类型的多样性（阵发性、持续性、永久性）；2) 构建过程中的挑战：结构化EHR数据的编码错误和缺失值问题，自由文本数据的标准化和信息提取难度，以及数据整合时的时间对齐问题。此外，数据集还面临性别和年龄偏差的挑战，不同亚组的预测性能存在显著差异。

常用场景

经典使用场景

AF Recurrence Dataset在心血管疾病研究中被广泛用于预测房颤（Atrial Fibrillation, AF）的复发情况。该数据集结合了结构化电子健康记录（EHR）和非结构化的出院报告，通过自然语言处理技术提取关键临床特征，为机器学习模型提供了丰富的数据支持。其经典使用场景包括开发预测模型，以评估患者在房颤初次发作后1个月至2年内的复发风险，从而辅助临床决策。

解决学术问题

AF Recurrence Dataset解决了房颤复发预测中的多个关键学术问题。首先，它通过整合结构化和非结构化数据，弥补了传统临床评分系统（如CHADS2-VASc、HATCH和APPLE）在预测准确性上的不足。其次，该数据集提供了一种减少人工标注负担的方法，通过自动化数据生成和标注流程，显著提升了研究效率。此外，数据集还揭示了性别和年龄对房颤复发预测的影响，为个性化医疗提供了重要依据。

衍生相关工作

AF Recurrence Dataset衍生了多项相关研究，特别是在机器学习和自然语言处理领域。例如，基于该数据集开发的Large Tabular Models（LTMs）在低数据量和高维特征场景中表现出色，为医疗数据建模提供了新思路。此外，数据集的方法论还被应用于其他心血管疾病的预测，如心力衰竭和心律失常。相关研究进一步探索了多模态数据融合和模型可解释性，推动了AI在医疗领域的深入应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集