Glucose-ML

Name: Glucose-ML
Creator: 艾默里大学计算机科学系, 达特茅斯学院计算机科学系
Published: 2025-07-19 00:53:05
License: 暂无描述

arXiv2025-07-19 更新2025-07-22 收录

下载链接：

https://anonymous.4open.science/r/GlucoseML_Diabetes_Datasets_NeurIPS2025-F5FC/

下载链接

链接失效反馈

官方服务：

资源简介：

Glucose-ML是一个包含10个公开可用的糖尿病数据集的集合，这些数据集在过去的7年内（即2018年至2025年）发布。该集合包含超过300,000天的连续血糖监测（CGM）数据，共收集了来自4个国家2500多人的3800万个血糖样本。参与者包括患有1型糖尿病、2型糖尿病、糖尿病前期和无糖尿病的人。为了支持研究者和创新者使用这个丰富的糖尿病数据集集合，我们进行了一个比较分析，以指导算法开发者在选择数据集时做出决策。此外，我们还进行了一个关于血糖预测的案例研究，这是该领域最常见的人工智能任务之一。通过这个案例研究，我们为所有10个公开可用的糖尿病数据集提供了短期血糖预测的基准。我们展示了同一个算法在不同的数据集上开发/评估时，预测结果可能存在显著差异。本研究的结果被用于为糖尿病或更广泛的健康领域开发鲁棒的AI解决方案提供建议。我们提供了Glucose-ML集合中每个纵向糖尿病数据集的直接链接，并公开提供我们的代码。

Glucose-ML is a collection of 10 publicly available diabetes datasets published over the past 7 years (i.e., 2018 to 2025). This collection encompasses over 300,000 days of continuous glucose monitoring (CGM) data, with a total of 38 million glucose samples collected from more than 2,500 participants across 4 countries. The participants include individuals with type 1 diabetes, type 2 diabetes, prediabetes, and those without diabetes. To support researchers and innovators in utilizing this comprehensive diabetes dataset collection, we conducted a comparative analysis to guide algorithm developers in making informed decisions when selecting datasets. Additionally, we performed a case study on blood glucose prediction, which is one of the most common artificial intelligence tasks in this field. Through this case study, we established benchmarks for short-term blood glucose prediction across all 10 publicly available diabetes datasets. We demonstrate that the predictive performance of the same algorithm can vary significantly when developed or evaluated on different datasets. The findings of this study are intended to provide recommendations for developing robust AI solutions for diabetes or broader healthcare domains. We provide direct links to each longitudinal diabetes dataset in the Glucose-ML collection, and our code is publicly available.

提供机构：

艾默里大学计算机科学系, 达特茅斯学院计算机科学系

创建时间：

2025-07-19

原始信息汇总

Glucose-ML 数据集概述

数据集基本信息

名称: Glucose-ML
类型: 糖尿病相关纵向数据集集合
数据量:
- 超过300,000天的连续血糖监测（CGM）数据
- 总计3,800万血糖样本
- 来自2,500+人
覆盖范围:
- 4个国家
- 包含1型糖尿病、2型糖尿病、糖尿病前期和无糖尿病的数据
时间范围: 2018-2025年

数据集特点

包含10个公开可用的糖尿病数据集
旨在支持开发透明、可重复和稳健的AI解决方案
提供比较分析以指导数据选择

案例研究

聚焦于血糖预测任务
提供10个数据集的短期血糖预测基准
展示不同数据集对算法性能的影响

仓库结构

preprocessing_script/: 数据清洗和准备脚本
Data_filter_70_coverage/: CGM数据过滤脚本（保留≥70%覆盖率的日数据）
baseline_performance/: 基础血糖预测模型实现和结果
Paper_Figures/: 论文中的比较分析图表
Script_for_Figures/: 生成论文图表的Jupyter notebook
Script_for_Tables/: 计算论文表格数据的Jupyter notebook

使用要求

Python虚拟环境
依赖包: 通过requirements.txt安装

许可

MIT License

搜集汇总

数据集介绍

构建方式

Glucose-ML数据集的构建基于10个公开可用的糖尿病数据集，这些数据集均发布于2018至2025年间，涵盖了来自4个国家的2500多名参与者。数据集收集了超过30万天的连续血糖监测（CGM）数据，总计3800万次血糖样本。数据来源包括1型糖尿病（T1D）、2型糖尿病（T2D）、糖尿病前期（PreD）以及非糖尿病人群。为确保数据质量，所有CGM设备均为临床验证且FDA批准的传感器，如Medtronic、Dexcom和Abbott的产品。数据集的构建严格遵循FAIR原则（可查找、可访问、可互操作、可重用），并附带详细的文档说明。

特点

Glucose-ML数据集的特点在于其多样性和全面性。数据集不仅覆盖了广泛的糖尿病人群（T1D、T2D、PreD及非糖尿病），还包含了来自不同国家和地区的参与者，确保了数据的代表性。此外，数据集提供了多种数据类型，如血糖数据、胰岛素输送数据、活动追踪数据以及临床测量数据，为研究者提供了丰富的分析维度。数据集的规模庞大，总计超过30万天的CGM数据，能够支持复杂的AI模型训练和验证。数据质量方面，所有数据集均经过严格的缺失数据处理和异常值剔除，确保分析的可靠性。

使用方法

Glucose-ML数据集的使用方法灵活多样，适用于多种AI和机器学习任务。研究者可以通过公开或受控访问的方式获取数据，具体取决于数据集的许可协议。数据集支持的任务包括但不限于血糖预测、糖尿病管理算法开发和临床研究。为方便使用，数据集提供了详细的元数据和预处理代码，帮助研究者快速上手。此外，论文中还提供了血糖预测的基准测试结果，使用两种简单的基线方法（零阶保持预测器和简单线性回归预测器），为后续研究提供了参考。数据集的使用建议包括多数据集验证以确保模型的泛化能力，以及结合临床指标（如血糖时间范围TIR）进行结果评估。

背景与挑战

背景概述

Glucose-ML是由埃默里大学和达特茅斯学院的研究团队于2025年推出的糖尿病数据集集合，旨在解决人工智能在糖尿病管理中面临的数据壁垒问题。该数据集整合了2018至2025年间公开的10个糖尿病相关数据集，涵盖来自4个国家的2500多名参与者，包含超过30万天的连续血糖监测（CGM）数据和3800万次血糖采样。数据集覆盖了1型糖尿病、2型糖尿病、糖尿病前期及非糖尿病人群，为开发透明、可复现且稳健的AI解决方案提供了重要支持。其核心研究问题聚焦于如何利用高质量、多样化的纵向数据提升血糖预测算法的泛化能力，对数字健康技术领域产生了深远影响。

当前挑战

Glucose-ML面临的挑战主要体现在两个方面：领域问题方面，血糖预测算法在跨数据集评估时表现差异显著（如零阶保持预测器在BIG IDEAs和DiaTrend数据集上的RMSE相差12.03 mg/dL），凸显了数据异质性对模型泛化的挑战；构建过程方面，需处理多源CGM设备的采样频率差异（5-15分钟）、数据缺失问题（超过3倍采样间隔定义为缺失），以及临床有效性验证（确保>70%的CGM数据可用性）。此外，隐私保护要求导致60%数据集采用受控访问模式，增加了数据获取和整合的复杂性。

常用场景

经典使用场景

Glucose-ML数据集作为糖尿病管理领域的重要资源，其最经典的使用场景是支持血糖预测模型的开发与评估。该数据集整合了来自4个国家2500多名参与者的连续血糖监测数据，覆盖了1型糖尿病、2型糖尿病、前驱糖尿病及非糖尿病人群，为研究人员提供了丰富的跨人群血糖动态变化数据。在案例研究中，研究者利用该数据集对两种基础血糖预测算法进行了系统评估，揭示了不同数据集对同一算法性能的显著影响，为血糖预测研究提供了关键基准。

实际应用

在实际医疗场景中，Glucose-ML数据集支撑了多项糖尿病管理技术的创新应用。基于该数据集训练的预测模型已应用于闭环胰岛素泵系统，实现了个性化胰岛素剂量调节；其活动追踪数据被用于开发运动相关性低血糖预警系统；此外，数据集中的长期血糖趋势分析为临床医生制定精准治疗方案提供了决策支持。特别值得注意的是，该数据集帮助突破了传统算法在跨人群应用时的性能瓶颈。

衍生相关工作

该数据集已催生多个标志性研究成果：在算法层面，衍生出融合注意力机制与LSTM的血糖时序预测模型（Xiong et al., 2025）；在临床研究方面，支撑了关于运动对血糖影响的大规模队列分析（T1DEXI研究）；在技术标准领域，其数据质量评估方法被国际糖尿病联盟采纳为CGM数据预处理规范。此外，基于该数据集开发的元学习框架（Langarica et al., 2023）实现了跨设备血糖预测模型的快速适配。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集