five

T1D Semi-Supervised Change Point Detection Benchmark

收藏
github2024-12-11 更新2024-12-13 收录
下载链接:
https://github.com/Blood-Glucose-Control/t1d-change-point-detection-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
一个用于半监督变化点检测的开源基准数据集,来自连续血糖监测时间序列数据,用于检测1型糖尿病患者的餐食。

An open-source benchmark dataset for semi-supervised change point detection, sourced from continuous glucose monitoring time-series data and designed to detect meals in patients with type 1 diabetes.
创建时间:
2024-12-02
原始信息汇总

T1D Semi-Supervised Change Point Detection Benchmark

数据集元数据

属性
名称 T1D Semi-Supervised Change Point Detection Benchmark
URL https://github.com/Blood-Glucose-Control/t1d-change-point-detection-benchmark
sameAs https://github.com/Blood-Glucose-Control/t1d-change-point-detection-benchmark
描述
引用
许可证

数据目录结构

1. data/raw

包含直接从 simglucose 模拟器生成的数据。

特征:

  • 每位患者的持续时间:90天
  • 30名患者(10名成人,10名儿童和10名青少年)
  • 来源:Jinyu Xie. Simglucose v0.2.1 (2018)
  • 参考:https://github.com/jxx123/simglucose

2. data/processed

包含从 data/raw 派生的处理数据。

文件命名约定

模式:{patientNum}_{cgmName}_{insulinPumpName}_{startDate}_{endDate}.csv

示例:ado001_Dexcom_Cozmo_2024-02-01_2024-04-30

组件 描述 示例
patientNum 患者名称的前3个和后3个字符的连接 ado001 (adolescent#001)
cgmName CGM设备名称 Dexcom
insulinPumpName 胰岛素泵设备名称 Cozmo
startDate 生成数据的第一天 2024-02-01
endDate 生成数据的最后一天 2024-04-30

3. data/obfuscated

包含从 data/processed 派生的混淆数据,以模拟人类行为。

文件命名约定

模式:{patientNum}_{cgmName}_{insulinPumpName}_{startDate}_{endDate}_{loggingBehaviour}_{loggingTiming}.csv

示例:ado001_Dexcom_Cozmo_2024-02-01_2024-04-30_all_normal.csv

组件 描述 示例
patientNum 患者名称的前3个和后3个字符的连接 ado001 (adolescent#001)
cgmName CGM设备名称 Dexcom
insulinPumpName 胰岛素泵设备名称 Cozmo
startDate 生成数据的第一天 2024-02-01
endDate 生成数据的最后一天 2024-04-30

日志行为类型

文件名指示符 类型 描述 分布
all 所有餐食 记录每餐 20%
top2 每天多次餐食 记录1-2次最大餐食(平均每天1.8次记录) 25%
once 每天一次 仅记录最大餐食 20%
weekly 每周几次 不规则记录(平均每周3次记录) 20%
none 从不 无记录 15%

注意:分布百分比可能会更改

日志时间模式

文件名指示符 模式 描述 分布
late 左偏 健忘的记录者(伽马分布) 38%
early 右偏 匆忙的记录者(伽马分布) 23%
average 正态分布 以餐食开始时间为中心 28%
punctual 不变 在餐食开始时准确记录 11%

注意:分布百分比可能会更改

注意:伽马/分布的参数可能会更改

伽马/正态分布的日志时间

每个图表包含50条随机生成的曲线

平均记录者: Normal Distribution

迟记录者: Gamma Distribution

早记录者: Gamma Distribution

安装

可以使用 pip 安装包:

bash pip install t1d-cpd-benchmark

使用

该包提供了三个主要函数来加载不同类型的数据:

  • load_raw_data(): 加载原始CGM数据
  • load_processed_data(): 加载处理后的CGM数据
  • load_obfuscated_data(): 加载混淆的CGM数据

每个函数都可以通过索引加载单个患者的数据或加载所有患者的数据。

示例

python from t1d_cpd_benchmark.datasets import load_raw_data, load_processed_data, load_obfuscated_data

加载第一个患者的原始数据

load_raw_data 的索引可以是 0 到 29

data = load_raw_data(index=0) print(data.head())

加载第一个患者的处理数据

load_processed_data 的索引可以是 0 到 179

data = load_processed_data(index=0) print(data.head())

加载第一个患者的混淆数据

load_obfuscated_data 的索引可以是 0 到 59

data = load_obfuscated_data(index=0) print(data.head())

加载所有患者的数据

返回所有患者数据的连接 DataFrame

all_data = load_raw_data()

数据类型

  • 原始数据: 原始CGM测量值
  • 处理数据: 清洗和预处理的CGM数据
  • 混淆数据: 匿名的CGM数据

许可证

该项目采用 MIT 许可证 - 详情请参阅 LICENSE 文件。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过模拟器`simglucose`生成原始数据,涵盖了30名患者(包括10名成人、10名儿童和10名青少年)的90天连续血糖监测(CGM)数据。原始数据经过处理后,形成了包含患者编号、CGM设备名称、胰岛素泵名称、起始日期和结束日期的标准化文件。进一步,处理后的数据被模糊化,以模拟不同患者的记录行为和时间模式,从而生成不同类型的数据集,包括完全记录、部分记录和无记录等。
使用方法
用户可以通过安装`t1d-cpd-benchmark`包来访问该数据集,并使用提供的函数加载不同类型的数据。例如,`load_raw_data()`用于加载原始CGM数据,`load_processed_data()`用于加载处理后的数据,而`load_obfuscated_data()`则用于加载模糊化数据。这些函数支持单个患者数据的加载,也支持所有患者数据的批量加载,为研究者提供了灵活的数据访问方式。
背景与挑战
背景概述
T1D Semi-Supervised Change Point Detection Benchmark 数据集由 [sktime](https://www.sktime.net/en/stable/) 和 [skchange](https://skchange.readthedocs.io/en/latest/) 联合创建,旨在为1型糖尿病患者的餐后血糖变化点检测提供一个半监督的开源基准。该数据集基于连续血糖监测(CGM)时间序列数据,涵盖了30名患者(包括10名成人、10名儿童和10名青少年)的90天数据。数据集的构建旨在支持2024年PyData Global会议的相关研究,并为血糖控制领域的算法评估提供标准化工具。
当前挑战
该数据集面临的挑战主要集中在数据生成与处理过程中。首先,数据来源于`simglucose`模拟器,需确保模拟数据的准确性与真实性。其次,数据处理阶段涉及复杂的预处理步骤,如数据清洗与格式化,以确保数据的一致性与可用性。此外,数据集还引入了混淆数据(obfuscated data),模拟了不同患者的记录行为,增加了数据集的复杂性与多样性。最后,半监督学习方法的应用要求在标注数据有限的情况下,仍能有效检测血糖变化点,这对算法的鲁棒性与泛化能力提出了较高要求。
常用场景
经典使用场景
T1D Semi-Supervised Change Point Detection Benchmark数据集的经典使用场景主要集中在评估和优化用于检测1型糖尿病患者餐后血糖变化点的半监督算法。通过提供连续血糖监测(CGM)时间序列数据,该数据集允许研究人员在模拟的真实环境中测试和验证其算法,从而提高检测的准确性和鲁棒性。
解决学术问题
该数据集解决了在1型糖尿病管理中,如何准确检测餐后血糖变化点的学术研究问题。通过提供多样化的数据集,包括原始、处理和混淆数据,它为研究人员提供了一个全面的测试平台,以评估和改进现有的变化点检测算法,从而在糖尿病管理领域推动了技术的进步。
实际应用
在实际应用中,T1D Semi-Supervised Change Point Detection Benchmark数据集被广泛用于开发和优化糖尿病管理软件和设备。这些应用包括智能胰岛素泵、个性化饮食建议系统和实时血糖监测应用,旨在通过精确的变化点检测,提高患者的生活质量和健康管理效率。
数据集最近研究
最新研究方向
在糖尿病管理领域,T1D半监督变化点检测基准数据集的最新研究方向主要集中在开发和评估用于检测1型糖尿病患者餐后血糖变化点的半监督算法。这些算法旨在从连续血糖监测时间序列数据中识别出餐后血糖变化的关键点,从而为个性化糖尿病管理提供支持。研究热点包括改进数据预处理技术、优化变化点检测模型,以及探索迁移学习在不同患者群体中的应用。此外,随着智能医疗设备的普及,该数据集的研究成果有望推动糖尿病患者自我管理能力的提升,并为临床决策提供更为精准的依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作