KTB1

Name: KTB1
Creator: Novo Nordisk Foundation Centre for Biosustainability, Technical University of Denmark
Published: 2025-08-29 17:05:56
License: 暂无描述

arXiv2025-08-29 更新2025-09-03 收录

下载链接：

https://github.com/RajivKailasanathan/ADCoB

下载链接

链接失效反馈

官方服务：

资源简介：

KTB1数据集是基于MATLAB Simulink的KTB1模拟模型生成的，用于模拟连续生物制造过程中的正常和异常操作。数据集包含了1000个正常操作条件下的时间序列，以及100个在模拟过程中引入了乳糖浓度突变的异常操作条件下的时间序列。数据集旨在帮助开发和分析基于生成对抗网络（GANs）的异常检测方法，以应对连续生物制造过程中复杂的非线性动态和变量之间的关系。数据集适用于研究和开发新的异常检测算法，并可用于评估量子计算在提高GANs性能方面的潜力。

The KTB1 dataset is generated from the KTB1 simulation model developed using MATLAB Simulink, which is employed to simulate both normal and abnormal operational states in continuous biomanufacturing processes. The dataset comprises 1000 time-series samples under normal operating conditions, plus 100 time-series samples under abnormal operating conditions where lactose concentration mutations were introduced during the simulation. This dataset is intended to aid the development and analysis of generative adversarial networks (GANs)-based anomaly detection methods, targeting the complex nonlinear dynamics and inter-variable correlations inherent in continuous biomanufacturing processes. The dataset is applicable for researching and developing novel anomaly detection algorithms, and can be used to evaluate the potential of quantum computing in enhancing the performance of GANs.

提供机构：

Novo Nordisk Foundation Centre for Biosustainability, Technical University of Denmark

创建时间：

2025-08-29

搜集汇总

数据集介绍

构建方式

在连续生物制造过程的复杂动态背景下，KTB1数据集的构建依托于KTB-1动态仿真模型，该模型通过MATLAB Simulink环境模拟洛伐他汀生产的全流程操作。正常操作数据通过蒙特卡洛模拟生成，其中乳糖浓度在均值为20、方差为0.01的正态分布下随机波动，模拟了1000个时间序列，每个序列覆盖200小时并以小时为间隔采样。异常数据则通过在第10小时引入阶跃变化，将乳糖浓度从20降至19.7，并叠加均值为0、标准差为0.1的高斯噪声，生成了100个异常时间序列，以模拟饲料突然变异导致的真实过程偏差。

特点

KTB1数据集的核心特点在于其高度仿真的工业场景和复杂的多变量非线性动态。数据集包含1100个时间序列，每个序列跟踪5个关键过程变量，如生物质浓度和产物纯度，这些变量在上下游单元操作中相互耦合。异常模式专门模拟了饲料质量突变，这种故障在生物制造中具有典型性但难以早期检测。数据经过预处理，仅保留前48小时且每8小时采样一次，最终每个序列压缩为30维特征，既突出了早期异常的挑战性，又降低了计算复杂度，适用于评估生成式模型的泛化能力。

使用方法

该数据集主要用于无监督异常检测算法的训练与评估，特别针对生成对抗网络（GAN）及其量子混合变体。使用方法首先将正常操作数据输入GAN生成器，通过潜在空间（高斯分布、模拟量子分布或真实光子量子分布）生成合成数据，判别器则学习区分真实正常数据与合成数据。训练完成后，仅保留判别器作为异常检测模块，采用集成策略：若任一判别器将输入时间序列判定为分布外数据，则标记为异常。评估时通过ROC曲线和AUC值量化性能，重点关注早期检测的灵敏度与特异性平衡。

背景与挑战

背景概述

KTB1数据集由丹麦技术大学与诺和诺德基金会生物可持续性中心于2024年联合开发，聚焦连续生物制造过程中的异常检测核心问题。该数据集通过动态模拟洛伐他汀连续生产流程，精准捕获上游发酵与下游纯化单元的非线性动力学特征，填补了生物制药领域高质量基准数据的空白。其创新性在于整合了量子-经典混合生成对抗网络框架，为工业过程监控提供了首个专门针对生物制造异常检测的标准化评估平台，对推动智能生物制造系统的演进具有里程碑意义。

当前挑战

数据集构建面临生物过程多变量耦合与量子-经典算法融合的双重挑战：需精确模拟连续生物反应器中底物浓度突变引发的级联效应，同时克服量子噪声对光子处理器采样稳定性的影响；在应用层面，需解决高维时间序列中微弱异常信号的早期识别问题，以及量子潜在分布与经典神经网络协同优化中的模式坍塌风险。

常用场景

经典使用场景

在连续生物制造过程的监控中，KTB1数据集被广泛用于验证无监督异常检测算法的性能。该数据集通过动态模拟洛伐他汀生产过程中的正常操作与突发性原料变异故障，为生成对抗网络（GAN）集成方法提供了基准测试环境。研究者利用该数据集训练多个判别器，通过量子增强的潜在分布生成多样化合成数据，从而提升对非线性过程动态中微小偏差的识别能力。

解决学术问题

KTB1数据集解决了连续生物制造中早期异常检测的核心学术挑战，包括高维时间序列数据的非线性动力学建模、正常与异常数据极度不平衡的处理，以及量子-经典混合算法在工业场景中的有效性验证。其意义在于首次将量子生成分布引入生物过程监控，证明了量子计算在提升生成数据多样性和判别边界精度方面的潜力，为复杂工业系统的智能监控提供了理论框架与实践基础。

衍生相关工作

KTB1数据集催生了多项量子机器学习与工业过程监控的融合研究，例如基于光量子处理器的混合GAN架构优化、多判别器集成策略的扩展应用，以及动态模拟与数字孪生系统的协同开发。这些工作进一步探索了量子分布在高维数据生成中的优势，并为生物制造领域的异常检测算法设立了新的性能基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集