医疗索赔数据集

Name: 医疗索赔数据集
Creator: 联合健康集团OptumLabs
Published: 2021-07-22 15:34:48
License: 暂无描述

arXiv2021-07-22 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2107.10495v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究使用的数据集名为“医疗索赔数据集”，由联合健康集团OptumLabs创建，包含12425832条记录，涵盖了2016至2018年的历史行政索赔数据，包括人口统计信息和疾病代码。数据集创建过程中，利用这些历史数据预测2019年的六种不同疾病结果，并评估模型性能。该数据集主要应用于医疗健康领域，旨在通过自动化机器学习工具提高疾病预测的准确性和效率，解决医疗数据处理中的挑战。

The dataset used in this study is named "Medical Claims Dataset", which was developed by OptumLabs, a subsidiary of UnitedHealth Group. It contains 12,425,832 records covering historical administrative claims data from 2016 to 2018, including demographic information and disease codes. In this study, these historical data were utilized to predict six distinct disease outcomes in 2019 and evaluate model performance. This dataset is primarily applied in the healthcare field, aiming to improve the accuracy and efficiency of disease prediction via automated machine learning tools and address the challenges in medical data processing.

提供机构：

联合健康集团OptumLabs

创建时间：

2021-07-22

搜集汇总

数据集介绍

构建方式

在医疗大数据与自动化机器学习融合的背景下，该医疗索赔数据集的构建依托于美国联合健康集团临床发现门户中超过1240万连续参保人群的历史管理索赔记录。研究团队以2019年为预测年份，选取了肺癌、前列腺癌、类风湿关节炎、2型糖尿病、炎症性肠病及慢性肾脏病等六种疾病作为预测目标。特征工程方面，利用2016年至2018年的索赔数据，提取了每位参保人在此期间的前三个诊断对应的ICD-10代码的前三位字符，并在四个不同时间窗口内进行标记，同时纳入性别、年龄及州级社会经济指数等人口统计学信息，最终生成了涵盖3511个特征的高维数据集。为确保数据质量，疾病标志基于ICD-10代码定义，且多数疾病要求在同一时间段内至少出现两次相关索赔记录以确认诊断，从而提升了标签的临床可靠性。

特点

该数据集的核心特点在于其规模宏大与类别高度不平衡。样本量超过1240万，特征数量达3511个，远超常规自动化机器学习研究中所用的数据集规模。六种目标疾病的阳性率极低，范围在0.053%至0.63%之间，呈现出显著的类别不平衡性，这对模型训练与评估提出了严峻挑战。此外，数据源自真实的医疗索赔记录，其特征基于ICD-10诊断代码与人口统计变量，虽具有广泛的覆盖性，但也因索赔数据的计费性质而存在一定噪声，例如某些代码可能仅代表筛查而非确诊。这些特性使得该数据集成为评估自动化机器学习工具在真实世界、大规模、不平衡医疗数据上性能的理想基准。

使用方法

该数据集主要用于自动化机器学习工具在疾病预测任务上的基准测试与性能比较。使用方法上，研究团队从总体数据中分层抽样出30万个样本作为训练集，以保持原始疾病流行率，并采用三种主流自动化机器学习工具（AutoSklearn、H2O和TPOT）以及随机森林基线模型进行训练。模型优化针对不同指标，如平均精度、平衡准确度与ROC曲线下面积。训练后的模型在剩余的约1170万样本保持集上进行预测评估，并通过自助采样法计算性能指标的95%置信区间。在实际应用中，用户需注意模型输出的概率阈值选择，应结合具体临床场景中真假阳性的权衡成本，例如通过分析受试者工作特征曲线来确定最佳截断点，以实现预测模型在医疗决策中的有效部署。

背景与挑战

背景概述

在生物医学与医疗健康领域大数据迅猛发展的背景下，机器学习技术已成为提升健康结果、降低医疗成本及推动临床研究的关键驱动力。医疗索赔数据集作为该领域的重要数据资源，由美国联合健康集团旗下的OptumLabs与宾夕法尼亚大学的研究团队于近年共同构建，旨在通过历史管理索赔数据，预测六种特定疾病在2019年的发生情况。该数据集覆盖超过1240万参保个体，包含3511个特征，其核心研究问题聚焦于评估自动化机器学习工具在高度不平衡的大规模医疗数据上的性能表现，以推动AutoML在医疗场景中的有效集成与应用，为疾病预测模型的标准化比较提供了宝贵的基准资源。

当前挑战

医疗索赔数据集所应对的领域挑战主要在于疾病预测中极端类别不平衡问题的处理，例如数据集中疾病阳性率低至0.053%至0.63%，这导致模型难以从少数类样本中充分学习，进而影响预测精度与召回率。在数据集构建过程中，研究人员面临多重挑战：一是医疗索赔数据的固有局限性，由于ICD-10编码主要用于计费目的，某些代码可能仅代表筛查服务而非确诊疾病，从而引入噪声特征；二是数据规模庞大，样本量超过千万级别，特征维度高，对AutoML工具的计算可扩展性提出了严峻考验；三是确保数据历史完整性与代表性之间的平衡，较长的连续参保标准虽能提升数据质量，却可能显著缩减研究人群规模。

常用场景

经典使用场景

在医疗健康数据分析领域，医疗索赔数据集常被用于构建疾病预测模型，特别是针对大规模、高度不平衡的医疗数据进行自动化机器学习（AutoML）框架的基准测试。该数据集通过整合历史索赔记录、人口统计信息及疾病代码标志，为研究人员提供了一个标准化的评估平台，用以比较不同AutoML工具在预测六种特定疾病（如肺癌、前列腺癌、类风湿关节炎等）发生风险时的性能表现。

衍生相关工作

基于该数据集的研究催生了多项经典工作，包括对AutoML工具（如AutoSklearn、H2O和TPOT）在医疗数据上的系统性比较，以及针对不平衡数据的集成学习与重采样技术的改进。这些工作进一步拓展至医疗欺诈检测、患者分层管理和临床决策支持系统等领域，促进了跨学科合作，为医疗人工智能的标准化与规模化应用奠定了理论基础。

数据集最近研究