E-Log-Dataset
收藏github2025-07-30 更新2025-08-10 收录
下载链接:
https://github.com/AIOps-LogDB/E-Log-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
E-Log: 用于DBMS的细粒度弹性日志异常检测和诊断的数据集
E-Log: A dataset for fine-grained elastic log anomaly detection and diagnosis in DBMS.
创建时间:
2025-07-30
原始信息汇总
E-Log数据集概述
论文标题
E-Log: Fine-grained Elastic Log-Based Anomaly Detection and Diagnosis for DBMS
数据集下载链接
- TSBS: https://zenodo.org/records/16606258/files/tsbs.zip
- TPC-xIoT: https://zenodo.org/records/16606258/files/tpc.zip
- IoTBench: https://zenodo.org/records/16606258/files/iotbench.zip
搜集汇总
数据集介绍

构建方式
E-Log-Dataset的构建依托于三个权威基准测试框架:TSBS、TPC-xIoT和IoTBench,通过模拟数据库管理系统(DBMS)在真实场景下的运行状态,系统性地采集了多维度的日志数据。研究团队采用分布式日志收集架构,以毫秒级时间戳记录查询执行、资源占用等关键指标,并通过注入预设异常模式的方式构建标注数据集,确保数据具有精确的时间序列特征和可验证的异常标签。
特点
该数据集在细粒度异常检测领域具有显著优势,其核心价值体现在三个方面:覆盖TPC-xIoT等工业标准测试场景的完整日志流,包含CPU利用率、内存占用等12类资源指标;采用分层采样技术保留原始日志的时间分布特性,同时实现数据体积的智能压缩;每个异常事件均标注了触发时间、影响组件及根因分析,为算法验证提供可靠的金标准。
使用方法
使用该数据集时建议遵循标准化流程:通过提供的Zenodo链接下载对应场景的压缩包后,解压可获得按时间戳排序的CSV格式日志文件。研究者在IoTBench子集上进行算法训练时,应注意其特有的设备传感器日志结构,而TPC-xIoT子集更适合测试事务处理系统的异常检测。数据集内置的元数据描述文件详细说明了各字段含义,建议优先阅读以正确解析资源利用率等关键指标。
背景与挑战
背景概述
E-Log数据集是数据库管理系统(DBMS)领域中针对细粒度弹性日志异常检测与诊断而构建的专业数据集,由研究团队在2023年通过整合TSBS、TPC-xIoT和IoTBench三大基准测试平台的日志数据创建。该数据集聚焦于解决分布式数据库环境下由硬件故障、负载波动等因素引发的复杂异常检测问题,其多源异构日志特征为DBMS可靠性研究提供了重要基准。通过融合时序性能指标与操作日志的关联分析,E-Log显著提升了学术界对弹性数据库系统故障模式的认知深度,成为近年来数据库自治运维领域最具代表性的日志分析数据集之一。
当前挑战
在领域问题层面,E-Log需应对数据库异常检测中日志语义鸿沟的挑战,传统正则匹配方法难以处理动态生成的参数化查询日志,且云原生数据库的弹性扩缩容行为会引发异常模式漂移。数据集构建过程中,研究团队面临多源日志模式对齐的技术难点,TPC-xIoT的事务日志与IoTBench设备日志存在时间粒度不一致问题,需开发跨平台的日志特征标准化管道。此外,异常标注需要结合数据库内部状态机与外部性能指标的双重验证,标注过程的专家知识依赖度较高,这使数据集的规模扩展受到制约。
常用场景
经典使用场景
在数据库管理系统(DBMS)领域,E-Log数据集为研究人员提供了一个精细化的日志分析平台,特别适用于异常检测和诊断任务。该数据集通过整合TSBS、TPC-xIoT和IoTBench等多个子集,覆盖了从时序数据库到物联网设备的多样化场景,使得研究者能够在不同环境下验证算法的鲁棒性和准确性。其丰富的日志信息和标注数据为开发新型异常检测模型提供了坚实的基础。
解决学术问题
E-Log数据集有效解决了数据库异常检测中数据稀缺和标注不足的学术难题。通过提供多源异构的日志数据,该数据集支持对异常行为的细粒度分析,从而推动了基于机器学习和深度学习的异常检测算法的研究。其标注数据进一步降低了模型训练的门槛,使得研究者能够专注于算法优化而非数据预处理,显著提升了学术研究的效率和可重复性。
衍生相关工作
围绕E-Log数据集,学术界衍生了一系列经典研究工作,包括基于深度学习的日志异常检测框架和轻量级实时诊断工具。这些工作不仅扩展了数据集的应用范围,还进一步提升了异常检测的精度和效率。部分研究还结合了领域知识,提出了针对特定数据库系统的优化算法,为后续研究提供了重要的参考和启发。
以上内容由遇见数据集搜集并总结生成



