T1D Semi-Supervised Change Point Detection Benchmark

github2024-12-11 更新2024-12-13 收录

下载链接：

https://github.com/Blood-Glucose-Control/t1d-change-point-detection-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于半监督变化点检测的开源基准数据集，来自连续血糖监测时间序列数据，用于检测1型糖尿病患者的餐食。

An open-source benchmark dataset for semi-supervised change point detection, sourced from continuous glucose monitoring time-series data and designed to detect meals in patients with type 1 diabetes.

创建时间：

2024-12-02

原始信息汇总

T1D Semi-Supervised Change Point Detection Benchmark

数据集元数据

属性	值
名称	T1D Semi-Supervised Change Point Detection Benchmark
URL	https://github.com/Blood-Glucose-Control/t1d-change-point-detection-benchmark
sameAs	https://github.com/Blood-Glucose-Control/t1d-change-point-detection-benchmark
描述
引用
许可证

数据目录结构

1. data/raw

包含直接从 simglucose 模拟器生成的数据。

特征：

每位患者的持续时间：90天
30名患者（10名成人，10名儿童和10名青少年）
来源：Jinyu Xie. Simglucose v0.2.1 (2018)
参考：https://github.com/jxx123/simglucose

2. data/processed

包含从 data/raw 派生的处理数据。

文件命名约定

模式：{patientNum}_{cgmName}_{insulinPumpName}_{startDate}_{endDate}.csv

示例：ado001_Dexcom_Cozmo_2024-02-01_2024-04-30

组件	描述	示例
patientNum	患者名称的前3个和后3个字符的连接	`ado001` (adolescent#001)
cgmName	CGM设备名称	`Dexcom`
insulinPumpName	胰岛素泵设备名称	`Cozmo`
startDate	生成数据的第一天	`2024-02-01`
endDate	生成数据的最后一天	`2024-04-30`

3. data/obfuscated

包含从 data/processed 派生的混淆数据，以模拟人类行为。

文件命名约定

模式：{patientNum}_{cgmName}_{insulinPumpName}_{startDate}_{endDate}_{loggingBehaviour}_{loggingTiming}.csv

示例：ado001_Dexcom_Cozmo_2024-02-01_2024-04-30_all_normal.csv

组件	描述	示例
patientNum	患者名称的前3个和后3个字符的连接	`ado001` (adolescent#001)
cgmName	CGM设备名称	`Dexcom`
insulinPumpName	胰岛素泵设备名称	`Cozmo`
startDate	生成数据的第一天	`2024-02-01`
endDate	生成数据的最后一天	`2024-04-30`

日志行为类型

文件名指示符	类型	描述	分布
all	所有餐食	记录每餐	20%
top2	每天多次餐食	记录1-2次最大餐食（平均每天1.8次记录）	25%
once	每天一次	仅记录最大餐食	20%
weekly	每周几次	不规则记录（平均每周3次记录）	20%
none	从不	无记录	15%

注意：分布百分比可能会更改

日志时间模式

文件名指示符	模式	描述	分布
late	左偏	健忘的记录者（伽马分布）	38%
early	右偏	匆忙的记录者（伽马分布）	23%
average	正态分布	以餐食开始时间为中心	28%
punctual	不变	在餐食开始时准确记录	11%

注意：分布百分比可能会更改

注意：伽马/分布的参数可能会更改

伽马/正态分布的日志时间

每个图表包含50条随机生成的曲线

平均记录者： Normal Distribution

迟记录者： Gamma Distribution

早记录者： Gamma Distribution

安装

可以使用 pip 安装包：

bash pip install t1d-cpd-benchmark

使用

该包提供了三个主要函数来加载不同类型的数据：

load_raw_data(): 加载原始CGM数据
load_processed_data(): 加载处理后的CGM数据
load_obfuscated_data(): 加载混淆的CGM数据

每个函数都可以通过索引加载单个患者的数据或加载所有患者的数据。

示例

python from t1d_cpd_benchmark.datasets import load_raw_data, load_processed_data, load_obfuscated_data

加载第一个患者的原始数据

load_raw_data 的索引可以是 0 到 29

data = load_raw_data(index=0) print(data.head())

加载第一个患者的处理数据

load_processed_data 的索引可以是 0 到 179

data = load_processed_data(index=0) print(data.head())

加载第一个患者的混淆数据

load_obfuscated_data 的索引可以是 0 到 59

data = load_obfuscated_data(index=0) print(data.head())

加载所有患者的数据

返回所有患者数据的连接 DataFrame

all_data = load_raw_data()

数据类型

原始数据: 原始CGM测量值
处理数据: 清洗和预处理的CGM数据
混淆数据: 匿名的CGM数据

许可证

该项目采用 MIT 许可证 - 详情请参阅 LICENSE 文件。

搜集汇总

数据集介绍

构建方式

该数据集通过模拟器`simglucose`生成原始数据，涵盖了30名患者（包括10名成人、10名儿童和10名青少年）的90天连续血糖监测（CGM）数据。原始数据经过处理后，形成了包含患者编号、CGM设备名称、胰岛素泵名称、起始日期和结束日期的标准化文件。进一步，处理后的数据被模糊化，以模拟不同患者的记录行为和时间模式，从而生成不同类型的数据集，包括完全记录、部分记录和无记录等。

使用方法

用户可以通过安装`t1d-cpd-benchmark`包来访问该数据集，并使用提供的函数加载不同类型的数据。例如，`load_raw_data()`用于加载原始CGM数据，`load_processed_data()`用于加载处理后的数据，而`load_obfuscated_data()`则用于加载模糊化数据。这些函数支持单个患者数据的加载，也支持所有患者数据的批量加载，为研究者提供了灵活的数据访问方式。

背景与挑战

背景概述

T1D Semi-Supervised Change Point Detection Benchmark 数据集由 [sktime](https://www.sktime.net/en/stable/) 和 [skchange](https://skchange.readthedocs.io/en/latest/) 联合创建，旨在为1型糖尿病患者的餐后血糖变化点检测提供一个半监督的开源基准。该数据集基于连续血糖监测（CGM）时间序列数据，涵盖了30名患者（包括10名成人、10名儿童和10名青少年）的90天数据。数据集的构建旨在支持2024年PyData Global会议的相关研究，并为血糖控制领域的算法评估提供标准化工具。

当前挑战

该数据集面临的挑战主要集中在数据生成与处理过程中。首先，数据来源于`simglucose`模拟器，需确保模拟数据的准确性与真实性。其次，数据处理阶段涉及复杂的预处理步骤，如数据清洗与格式化，以确保数据的一致性与可用性。此外，数据集还引入了混淆数据（obfuscated data），模拟了不同患者的记录行为，增加了数据集的复杂性与多样性。最后，半监督学习方法的应用要求在标注数据有限的情况下，仍能有效检测血糖变化点，这对算法的鲁棒性与泛化能力提出了较高要求。

常用场景

经典使用场景

T1D Semi-Supervised Change Point Detection Benchmark数据集的经典使用场景主要集中在评估和优化用于检测1型糖尿病患者餐后血糖变化点的半监督算法。通过提供连续血糖监测（CGM）时间序列数据，该数据集允许研究人员在模拟的真实环境中测试和验证其算法，从而提高检测的准确性和鲁棒性。

解决学术问题

该数据集解决了在1型糖尿病管理中，如何准确检测餐后血糖变化点的学术研究问题。通过提供多样化的数据集，包括原始、处理和混淆数据，它为研究人员提供了一个全面的测试平台，以评估和改进现有的变化点检测算法，从而在糖尿病管理领域推动了技术的进步。

实际应用

在实际应用中，T1D Semi-Supervised Change Point Detection Benchmark数据集被广泛用于开发和优化糖尿病管理软件和设备。这些应用包括智能胰岛素泵、个性化饮食建议系统和实时血糖监测应用，旨在通过精确的变化点检测，提高患者的生活质量和健康管理效率。

数据集最近研究