Optimally-Sampled Datasets (OSD)

Name: Optimally-Sampled Datasets (OSD)
Creator: 美国弗吉尼亚大学糖尿病技术中心
Published: 2025-04-16 00:25:06
License: 暂无描述

arXiv2025-04-16 更新2025-04-17 收录

下载链接：

http://arxiv.org/abs/2504.11355v1

下载链接

链接失效反馈

官方服务：

资源简介：

OSD是一个优化的训练数据集，由弗吉尼亚大学糖尿病技术中心创建，用于训练神经网络以模拟模型预测控制(MPC)算法。该数据集通过特定的算法从大量未结构化数据中生成，具有无重复元素、自适应粒度和数值分辨率、达到饱和或完整状态的特点。它旨在提高神经网络在模拟MPC算法时的准确性，并已应用于1型糖尿病的自动化胰岛素递送系统。

OSD is an optimized training dataset created by the Diabetes Technology Center at the University of Virginia, designed to train neural networks for emulating Model Predictive Control (MPC) algorithms. This dataset is generated from large-scale unstructured data via specialized algorithms, and features non-repetitive elements, adaptive granularity and numerical resolution, as well as saturated or complete states. It aims to improve the accuracy of neural networks when emulating MPC algorithms, and has been applied to automated insulin delivery systems for type 1 diabetes.

提供机构：

美国弗吉尼亚大学糖尿病技术中心

创建时间：

2025-04-16

搜集汇总

数据集介绍

构建方式

Optimally-Sampled Datasets (OSD) 的构建基于一种创新的算法，旨在从大量非结构化数据中提取最优化的训练子集。首先，通过模拟环境生成初始数据集，该数据集涵盖了模型预测控制（MPC）操作空间中的所有可能状态。随后，利用基于分层可导航小世界（HNSW）图的快速最近邻检索算法，筛选出满足特定成本条件的样本，确保数据集在数值分辨率和信息完整性上达到最优。最终生成的OSD不仅避免了重复或近似重复的状态，还能自适应地调整采样密度，以保留MPC的关键信息。

使用方法

使用OSD数据集时，首先需根据具体应用场景调整成本参数（如J*和Su），以平衡数据集的粒度和规模。随后，将生成的OSD作为神经网络的训练集，通过标准的前向传播和反向传播算法进行模型训练。值得注意的是，OSD特别适用于需要高效实现MPC算法的场景，例如自动化胰岛素输送系统。用户还可以通过测试集验证模型的插值能力，确保其在未见过的状态下仍能保持高精度。此外，OSD的构建方法可推广至其他需要优化控制的领域，前提是能够生成足够覆盖操作空间的初始数据。

背景与挑战

背景概述

Optimally-Sampled Datasets (OSD) 由弗吉尼亚大学糖尿病技术中心的Alberto Castillo等学者于2025年提出，旨在解决嵌入式设备中模型预测控制(MPC)算法的轻量化部署难题。该数据集创新性地构建了参数化训练子集，通过保留MPC信息的数值分辨率、消除冗余状态并实现数据饱和，显著提升了神经网络模拟MPC行为的准确性。在1型糖尿病胰岛素自动输送系统的应用中，基于OSD训练的神经网络实现了四倍精度提升，并成为首个获准临床测试的神经网络控制算法，为资源受限的嵌入式平台部署复杂算法开辟了新途径。

当前挑战

OSD面临的挑战主要体现在两个维度：在领域问题层面，需解决MPC算法在血糖控制等高维非线性系统中的计算复杂度与嵌入式设备资源限制之间的矛盾；在构建过程层面，存在数据分布不平衡导致的神经网络过拟合风险、MPC解空间非均匀性引发的关键区域采样不足，以及超参数J*与Su的协同优化难题。特别地，如何设计自适应粒度调整机制以兼顾计算效率与数值分辨率，成为算法工程化的核心挑战。

常用场景

经典使用场景

在嵌入式模型预测控制（MPC）领域，Optimally-Sampled Datasets (OSD) 被广泛应用于训练神经网络以替代传统计算密集型MPC算法。通过收集系统状态与MPC生成的控制动作之间的输入-输出数据，OSD能够高效地构建轻量级神经网络模型，显著降低计算成本。在1型糖尿病自动胰岛素输送系统中，OSD帮助实现了临床级精度的神经网络MPC控制器，其计算效率比传统方法提升了180倍。

解决学术问题

OSD有效解决了MPC在嵌入式设备部署中的核心学术难题：计算复杂度与实现精度的平衡问题。传统MPC需要在每个控制周期求解约束优化问题，而OSD通过构建参数化数据子集，保留了MPC的关键信息至特定数值分辨率，避免了状态重复，并实现数据饱和。该方法在弗吉尼亚大学MPC算法复现实验中，使神经网络最终精度提升四倍，为资源受限设备上的高级优化算法部署提供了新范式。

实际应用

在实际医疗设备领域，基于OSD训练的神经网络MPC已获得FDA临床测试许可，成为首个直接用于人类胰岛素剂量控制的神经网络算法。该系统每5分钟根据连续血糖监测数据自动调节胰岛素输注速率，在750次60天的虚拟患者实验中表现出卓越的血糖控制能力。这种技术路径可扩展至智能手表、胰岛素泵等穿戴式医疗设备，解决了传统MPC在小型化设备中的能耗与计算瓶颈。

数据集最近研究