IBM Db2 TPC-C Benchmark Workloads Lock Event Logs

Name: IBM Db2 TPC-C Benchmark Workloads Lock Event Logs
Creator: 多伦多都会大学，IBM加拿大实验室
Published: 2025-06-30 23:50:06
License: 暂无描述

arXiv2025-06-30 更新2025-07-02 收录

下载链接：

https://github.com/mbrotos/lock-pred

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来源于IBM Db2数据库系统，并收集了TPC-C基准工作负载下的锁事件日志。数据集包含了对数据库中8个表的锁操作记录，包括锁请求、锁释放和锁移除等。数据集的收集是在一个具有100个仓库、10个异步客户端和100个虚拟用户的TPC-C基准配置下进行的，以模拟现实世界的交易活动。数据集的目的是用于训练和评估深度学习模型，以预测数据库中下一个将被锁定的表或数据页。

This dataset is derived from the IBM Db2 database system, and collects lock event logs under the TPC-C benchmark workload. It encompasses lock operation records for 8 database tables, including lock requests, lock releases, lock removals, and other related events. The dataset was collected using a TPC-C benchmark configuration consisting of 100 warehouses, 10 asynchronous clients, and 100 virtual users, to simulate real-world transactional activities. The primary purpose of this dataset is to train and evaluate deep learning models for predicting the next table or data page that will be locked in a database.

提供机构：

多伦多都会大学，IBM加拿大实验室

创建时间：

2025-06-30

原始信息汇总

数据集概述

数据集名称

Lock Prediction for Zero-Downtime Database Encryption

数据集来源

数据存档下载地址：https://drive.google.com/file/d/1LOiRjv-yrqNgQryPc8XFVP8lRgmYeNyK/view?usp=sharing
相关论文：https://arxiv.org/abs/2506.23985

数据集用途

用于从IBM Db2捕获锁数据并训练模型以预测锁序列。

数据集结构

workload-testing/：包含启动TPC-C工作负载的HammerDB脚本
src/：主要源代码
- train.py：训练模型的主脚本
- datapipeline.py：数据加载和预处理
- model.py：模型架构（Transformer和LSTM）
- evaluate.py：评估指标和结果报告
- utils.py：实用函数
- tests/：单元测试
experiments/：不同配置的实验脚本
results/：存储实验结果的目录

数据采集方法

使用traceCommands.txt中的命令启用DB2跟踪
使用hammerDBinit.bat、hammerDBStep1.bat和hammerDBStep2.bat启动TPC-C HammerDB工作负载
使用traceCommands.txt中的命令停止DB2跟踪
运行db2trc flw -t开始跟踪预处理
使用lookup_locknames.py提取行和表锁

实验运行方法

运行实验脚本：bash experiments/exp-2.sh
SLURM系统运行：sbatch experiments/exp-2.sh

数据处理方法

提取脚本：bash 2_extract.sh
转换脚本：bash 3_transform.sh

测试方法

运行单元测试：pytest

引用方式

bibtex @article{rakha2025lockprediction, title={Lock Prediction for Zero-Downtime Database Encryption}, author={Mohamed Sami Rakha and Adam Sorrenti and Greg Stager and Walid Rjaibi and Andriy Miranskyy}, journal={arXiv preprint arXiv:2506.23985}, year={2025}, doi={10.48550/arXiv.2506.23985} }

搜集汇总

数据集介绍

构建方式

该数据集通过IBM Db2环境运行HammerDB TPC-C基准测试工作负载v. 5.11，并使用"db2trc"命令启用Db2跟踪来收集数据库锁跟踪。TPC-C是一种广泛使用的OLTP基准测试，用于模拟高容量事务系统，如电子商务或库存管理系统。收集的锁跟踪涉及八个表：customer、district、history、neworder、orderline、orders、stock和warehouse。跟踪明确捕获了与锁操作相关的Db2函数，包括"sqlplrq"（锁请求）、"sqlplrl"（锁释放）和"sqlplrem"（锁移除）。在实验工作负载中，应用了TPC-C基准测试配置，包含100个仓库、10个异步客户端和100个虚拟用户，生成了现实的事务活动。

特点

该数据集的特点包括：1) 高覆盖性：收集了约25GB的跟踪日志，涵盖了多种锁类型（如PAGE、CATALOG、TABLE等），其中表锁和页锁占总锁类型的50%；2) 结构化数据：通过预处理步骤将原始锁跟踪日志解析为结构化格式，提取了锁ID、开始时间、结束时间、模式（如共享锁、排他锁等）、锁对象（如数据页、表等）、页ID和表名等关键信息；3) 时序性：锁数据按开始时间升序排列，便于构建顺序事务时间线；4) 多样性：数据集包含全局模型和局部模型两种建模方式，适用于不同粒度的锁预测任务。

使用方法

该数据集的使用方法包括：1) 数据预处理：对原始锁跟踪日志进行解析和特征提取，将锁数据分类为表锁和页锁，并过滤掉与"SYSIBM"模式相关的系统锁；2) 模型训练：使用Transformer和LSTM等深度学习架构，输入序列由25个锁组成，每个锁包含一个或两个标记（表名和页ID），通过嵌入层转换为128维密集向量表示；3) 模型评估：采用全局模型和局部模型两种方法，全局模型使用所有表的数据进行训练，局部模型为每个表单独训练模型。评估指标包括准确率、精确率、召回率和F1分数，并通过多时间范围分析（如预测未来2、3或4个锁）来评估模型性能；4) 应用场景：该数据集可用于预测数据库锁序列，支持在线数据库加密、并发控制优化和缓冲区池管理等应用。

背景与挑战

背景概述

IBM Db2 TPC-C Benchmark Workloads Lock Event Logs数据集由多伦多大都会大学和IBM加拿大实验室的研究团队于2025年创建，旨在解决现代企业数据库系统在平衡数据安全与性能方面面临的重大挑战。该数据集的核心研究问题聚焦于实现零停机时间的数据库在线加密，通过预测数据库锁序列来优化加密操作的时机。研究团队利用TPC-C基准测试工作负载生成的锁事件日志，构建了包含870万条锁记录的专用数据集，涵盖了表级和页级锁等多种锁类型。这一创新性工作为数据库安全领域提供了重要突破，其提出的深度学习方法在表级锁预测准确率达到49%，页级预测准确率达66%，显著优于传统方法。该数据集及相关研究成果对推动智能数据库管理系统的发展具有深远影响，为实现量子安全加密环境下的高性能数据库运营提供了关键技术支撑。

当前挑战

该数据集面临的主要挑战体现在两个层面：在领域问题层面，数据库在线加密需要解决加密操作与高吞吐量事务处理的协调难题，传统方法往往导致系统长时间停机或存储开销激增。具体挑战包括准确预测数据库访问模式以避免加密干扰关键操作，以及处理量子计算威胁下日益复杂的加密需求。在构建过程层面，研究团队需应对TPC-C基准测试产生的25GB原始日志的预处理难题，包括处理8种不同锁类型的复杂分布、解决时序锁事件的序列建模问题，以及在深度学习中处理稀疏页ID带来的维度灾难。此外，模型需要同时适应表级和页级两种粒度的预测任务，这要求精心设计特征编码和分箱策略来平衡预测精度与计算复杂度。

常用场景

经典使用场景

IBM Db2 TPC-C Benchmark Workloads Lock Event Logs数据集在数据库管理系统（DBMS）领域中被广泛用于研究锁预测问题。该数据集通过记录IBM Db2数据库在TPC-C基准测试中的锁事件日志，为研究人员提供了丰富的锁操作序列数据。这些数据能够帮助研究者深入理解数据库在高并发事务处理环境下的锁行为模式，为开发智能锁预测模型奠定基础。

解决学术问题

该数据集有效解决了数据库加密与性能平衡这一关键学术问题。通过提供真实的锁事件序列数据，它支持了深度学习模型在锁预测任务上的训练与验证，为实现在线数据库加密提供了技术路径。研究结果表明，基于该数据集训练的Transformer和LSTM模型在表级锁预测准确率可达49%，页级锁预测准确率达66%，显著优于基线方法，为数据库零停机加密这一难题提供了创新解决方案。

衍生相关工作

基于该数据集的研究工作衍生出了多个重要方向：1）锁感知的并发控制优化，如Polyjuice等智能并发控制系统；2）自适应缓冲区管理，如DRL-Clusters等强化学习方法；3）预测性事务调度机制。这些工作共同推动了智能数据库管理系统的发展，为数据库自治优化和安全增强提供了新的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集