five

Optimally-Sampled Datasets (OSD)

收藏
arXiv2025-04-16 更新2025-04-17 收录
下载链接:
http://arxiv.org/abs/2504.11355v1
下载链接
链接失效反馈
官方服务:
资源简介:
OSD是一个优化的训练数据集,由弗吉尼亚大学糖尿病技术中心创建,用于训练神经网络以模拟模型预测控制(MPC)算法。该数据集通过特定的算法从大量未结构化数据中生成,具有无重复元素、自适应粒度和数值分辨率、达到饱和或完整状态的特点。它旨在提高神经网络在模拟MPC算法时的准确性,并已应用于1型糖尿病的自动化胰岛素递送系统。

OSD is an optimized training dataset created by the Diabetes Technology Center at the University of Virginia, designed to train neural networks for emulating Model Predictive Control (MPC) algorithms. This dataset is generated from large-scale unstructured data via specialized algorithms, and features non-repetitive elements, adaptive granularity and numerical resolution, as well as saturated or complete states. It aims to improve the accuracy of neural networks when emulating MPC algorithms, and has been applied to automated insulin delivery systems for type 1 diabetes.
提供机构:
美国弗吉尼亚大学糖尿病技术中心
创建时间:
2025-04-16
搜集汇总
数据集介绍
main_image_url
构建方式
Optimally-Sampled Datasets (OSD) 的构建基于一种创新的算法,旨在从大量非结构化数据中提取最优化的训练子集。首先,通过模拟环境生成初始数据集,该数据集涵盖了模型预测控制(MPC)操作空间中的所有可能状态。随后,利用基于分层可导航小世界(HNSW)图的快速最近邻检索算法,筛选出满足特定成本条件的样本,确保数据集在数值分辨率和信息完整性上达到最优。最终生成的OSD不仅避免了重复或近似重复的状态,还能自适应地调整采样密度,以保留MPC的关键信息。
使用方法
使用OSD数据集时,首先需根据具体应用场景调整成本参数(如J*和Su),以平衡数据集的粒度和规模。随后,将生成的OSD作为神经网络的训练集,通过标准的前向传播和反向传播算法进行模型训练。值得注意的是,OSD特别适用于需要高效实现MPC算法的场景,例如自动化胰岛素输送系统。用户还可以通过测试集验证模型的插值能力,确保其在未见过的状态下仍能保持高精度。此外,OSD的构建方法可推广至其他需要优化控制的领域,前提是能够生成足够覆盖操作空间的初始数据。
背景与挑战
背景概述
Optimally-Sampled Datasets (OSD) 由弗吉尼亚大学糖尿病技术中心的Alberto Castillo等学者于2025年提出,旨在解决嵌入式设备中模型预测控制(MPC)算法的轻量化部署难题。该数据集创新性地构建了参数化训练子集,通过保留MPC信息的数值分辨率、消除冗余状态并实现数据饱和,显著提升了神经网络模拟MPC行为的准确性。在1型糖尿病胰岛素自动输送系统的应用中,基于OSD训练的神经网络实现了四倍精度提升,并成为首个获准临床测试的神经网络控制算法,为资源受限的嵌入式平台部署复杂算法开辟了新途径。
当前挑战
OSD面临的挑战主要体现在两个维度:在领域问题层面,需解决MPC算法在血糖控制等高维非线性系统中的计算复杂度与嵌入式设备资源限制之间的矛盾;在构建过程层面,存在数据分布不平衡导致的神经网络过拟合风险、MPC解空间非均匀性引发的关键区域采样不足,以及超参数J*与Su的协同优化难题。特别地,如何设计自适应粒度调整机制以兼顾计算效率与数值分辨率,成为算法工程化的核心挑战。
常用场景
经典使用场景
在嵌入式模型预测控制(MPC)领域,Optimally-Sampled Datasets (OSD) 被广泛应用于训练神经网络以替代传统计算密集型MPC算法。通过收集系统状态与MPC生成的控制动作之间的输入-输出数据,OSD能够高效地构建轻量级神经网络模型,显著降低计算成本。在1型糖尿病自动胰岛素输送系统中,OSD帮助实现了临床级精度的神经网络MPC控制器,其计算效率比传统方法提升了180倍。
解决学术问题
OSD有效解决了MPC在嵌入式设备部署中的核心学术难题:计算复杂度与实现精度的平衡问题。传统MPC需要在每个控制周期求解约束优化问题,而OSD通过构建参数化数据子集,保留了MPC的关键信息至特定数值分辨率,避免了状态重复,并实现数据饱和。该方法在弗吉尼亚大学MPC算法复现实验中,使神经网络最终精度提升四倍,为资源受限设备上的高级优化算法部署提供了新范式。
实际应用
在实际医疗设备领域,基于OSD训练的神经网络MPC已获得FDA临床测试许可,成为首个直接用于人类胰岛素剂量控制的神经网络算法。该系统每5分钟根据连续血糖监测数据自动调节胰岛素输注速率,在750次60天的虚拟患者实验中表现出卓越的血糖控制能力。这种技术路径可扩展至智能手表、胰岛素泵等穿戴式医疗设备,解决了传统MPC在小型化设备中的能耗与计算瓶颈。
数据集最近研究
最新研究方向
随着嵌入式设备在医疗领域的广泛应用,Optimally-Sampled Datasets (OSD) 的研究方向主要集中在如何通过优化训练数据集来提高神经网络在模型预测控制(MPC)中的性能。特别是在1型糖尿病(T1D)的自动化胰岛素输送(AID)系统中,OSD通过参数化子集的方式,确保数据集在保留MPC信息的同时避免重复或近似重复的状态,从而实现更高的数值分辨率和数据完整性。这一方法不仅显著提升了神经网络的最终准确性,还成功获得了监管机构的临床测试许可,成为首个基于神经网络的直接人体胰岛素剂量控制算法。OSD的应用为资源受限的嵌入式平台实现高级优化算法开辟了新途径,可能彻底改变复杂算法的部署方式。
相关研究论文
  • 1
    Neural Networks for on-chip Model Predictive Control: a Method to Build Optimized Training Datasets and its application to Type-1 Diabetes美国弗吉尼亚大学糖尿病技术中心 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作