MetaboNet
收藏arXiv2026-01-17 更新2026-01-20 收录
下载链接:
https://metabo-net.org/
下载链接
链接失效反馈官方服务:
资源简介:
MetaboNet是由Replica Health等机构联合构建的1型糖尿病管理领域最大公开数据集,整合了来自Loop Observational Study等12个来源的临床数据。该数据集包含3135名受试者的1228患者年重叠CGM和胰岛素记录,涵盖连续血糖监测、胰岛素泵剂量及碳水化合物摄入等多元特征,数据量远超现有独立基准集。通过标准化5分钟时间网格和统一特征命名实现多源数据融合,部分数据需遵守数据使用协议(DUA)。其广泛应用于血糖模式分析、算法开发及临床决策支持,旨在解决糖尿病管理数据碎片化问题并提升算法泛化能力。
MetaboNet is the largest publicly available dataset in the field of type 1 diabetes mellitus management, jointly constructed by institutions including Replica Health. It integrates clinical data from 12 sources such as the Loop Observational Study. The dataset contains 1,228 patient-years of overlapping continuous glucose monitoring (CGM) and insulin records across 3,135 subjects, covering diverse multivariate features including continuous glucose monitoring data, insulin pump dosage, and carbohydrate intake. Its scale far surpasses that of existing independent benchmark datasets. Multi-source data fusion is realized via standardized 5-minute time grids and unified feature naming conventions. Portions of the dataset require compliance with the Data Use Agreement (DUA). It is widely applied in blood glucose pattern analysis, algorithm development and clinical decision support, aiming to resolve the issue of fragmented data in diabetes management and improve the generalization capability of relevant algorithms.
提供机构:
Replica Health; Jaeb健康研究中心; 帕维亚大学; 圣塔芭芭拉大学
创建时间:
2026-01-17
原始信息汇总
MetaboNet数据集概述
数据集简介
MetaboNet是最大的标准化糖尿病研究数据集,同时包含连续血糖监测(CGM)和胰岛素数据。该数据集通过系统性地处理和协调来自不同来源的主要糖尿病研究和数据集,将其统一为单一的表格格式,旨在为下一代闭环控制和糖尿病决策支持算法的训练和评估提供标准化基础。
获取步骤
- 登录:创建一个免费账户。
- 下载:立即获取MetaboNet数据集。
搜集汇总
数据集介绍

构建方式
在糖尿病管理算法研究领域,数据资源的碎片化与标准化缺失长期制约着研究进展。MetaboNet数据集通过系统整合21个公开可用的1型糖尿病管理数据集而构建,其纳入标准严格限定为同时包含连续血糖监测数据与胰岛素泵剂量记录的数据源。数据整合过程遵循统一的时间网格化原则,将所有数据重采样至5分钟间隔的标准化表格格式,并采用自动化处理流程对单位换算、特征命名进行规范化处理。针对受数据使用协议限制的数据集,研究团队提供了开源处理管道,确保研究者能够在本地将其转换为统一的MetaboNet格式,从而实现了多源异构数据在结构层面的深度融合。
特点
作为当前规模最大的1型糖尿病管理整合数据集,MetaboNet涵盖了3135名受试者、总计1228患者年的同步血糖与胰岛素数据,其数据量显著超越现有独立基准数据集。该数据集呈现出多维度的异质性特征:在人口统计学层面,覆盖了从儿童到老年患者的广泛年龄谱系,并包含多样化的种族背景与身体质量指数分布;在临床特征维度,既包含采用每日多次注射疗法的患者数据,也囊括了胰岛素泵使用者的完整记录。数据集特别保留了碳水化合物摄入、体力活动等辅助生理信号,为探究生活方式因素对血糖动态的影响提供了丰富的研究素材。这种广泛的数据覆盖有效降低了单一研究队列可能引入的选择偏倚。
使用方法
研究者可通过MetaboNet官方网站直接下载其公开子集,该部分数据以整合的Parquet格式文件提供,涵盖约71%的同步监测数据。对于受数据使用协议管辖的数据子集,用户需遵循各原始数据源的独立申请流程获取访问权限,随后利用项目提供的开源处理代码库将其转换为标准化格式。数据集采用按时间戳与受试者标识符索引的表格结构,每行记录对应特定时间点的多模态生理参数,研究者可根据需要选择适当的缺失值插补策略。该资源特别适用于血糖预测算法开发、低血糖预警模型训练、群体水平血糖模式分析等机器学习任务,其标准化格式显著降低了数据预处理负担,支持跨研究可重复性分析。
背景与挑战
背景概述
在糖尿病技术研究领域,数据驱动的算法开发依赖于高质量、标准化的数据集。然而,长期以来,1型糖尿病管理领域的数据资源呈现碎片化状态,各数据集在结构、格式和访问流程上存在显著差异,这严重阻碍了算法的整合、比较与泛化能力。为应对这一挑战,由Replica Health、Jaeb健康研究中心及帕维亚大学等机构的研究人员于2026年共同创建了MetaboNet数据集。该数据集旨在通过整合多个公开可用的1型糖尿病管理数据源,构建一个统一、可访问的大规模资源,其核心研究问题是解决现有数据资源的异构性问题,为血糖预测、胰岛素剂量优化等算法的开发与基准测试提供坚实基础。MetaboNet涵盖了3135名受试者、总计1228患者年的连续血糖监测与胰岛素重叠数据,其规模远超现有独立基准数据集,对推动1型糖尿病管理的算法研究与临床转化具有里程碑意义。
当前挑战
MetaboNet数据集致力于解决1型糖尿病管理算法开发中的核心挑战,即如何在一个异构且碎片化的数据生态系统中实现算法的公平比较与稳健泛化。具体而言,其构建过程面临多重挑战:首要挑战在于数据整合,需将来自21个独立研究、具有不同采集协议、时间分辨率与特征定义的数据源,统一至标准的5分钟采样网格与表格格式,同时处理复杂的授权与再分发权限问题。其次,数据质量保证面临现实世界数据的固有难题,包括处理缺失值、区分零值与真实无事件记录、识别并移除跨研究的重复数据条目,以及确保时间序列数据在跨时区或不规则测量下的逻辑一致性。此外,尽管数据集规模庞大,但在人口统计学代表性上仍存在局限,例如某些族裔群体代表性不足,这要求未来持续扩展数据源以提升模型的普适性与公平性。
常用场景
经典使用场景
在糖尿病管理研究领域,数据资源的碎片化长期制约着算法开发的标准化进程。MetaboNet作为当前规模最大的公开整合数据集,其经典使用场景聚焦于血糖预测模型的训练与验证。该数据集整合了来自21个独立研究的连续血糖监测与胰岛素给药记录,覆盖超过三千名受试者及上千患者年的时序数据,为机器学习算法提供了丰富且标准化的训练样本。研究者可利用其统一的五分钟采样网格和结构化特征,系统评估不同预测模型在30分钟预测窗口下的性能,从而推动数据驱动型血糖管理算法的发展。
解决学术问题
该数据集有效解决了糖尿病算法研究中长期存在的泛化性不足与可复现性难题。通过整合多源异构数据,MetaboNet打破了单一研究队列在人口统计学特征、治疗方案和血糖模式上的局限性,为算法评估提供了更接近真实世界的多样性样本。其标准化格式消除了原始数据在时间对齐、单位统一和特征命名上的差异,显著降低了数据预处理负担,使得跨研究比较成为可能。这种整合策略不仅提升了模型在异质人群中的稳健性,也为探索血糖动态的群体差异提供了前所未有的数据基础。
衍生相关工作
MetaboNet的推出催生了一系列基于整合数据范式的创新研究。在算法层面,研究者依托其多中心数据开发了融合生理机制的混合预测模型,以及针对低血糖预警的时序分类器。数据集的结构化特性也促进了标准化评估工具链的建立,例如配套发布的GluPredKit血糖预测评估框架。在方法论层面,该资源推动了糖尿病领域的离策略评估研究,为强化学习在胰岛素剂量控制中的应用提供了真实世界训练环境。这些衍生工作共同构成了一个以数据为中心的研究生态系统,持续推动着糖尿病管理技术向更可靠、更普适的方向演进。
以上内容由遇见数据集搜集并总结生成



