can-train-and-test

arXiv2023-08-09 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2308.04972v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了来自四个不同车辆、由两个不同制造商生产的CAN数据，包含可重放的.log文件以及标记和未标记的.csv文件，满足多种开发和评估需求。此外，数据集包含九种独特的攻击，从拒绝服务（DoS）到齿轮欺骗到静止状态等。

This dataset provides Controller Area Network (CAN) data from four distinct vehicles manufactured by two separate manufacturers. It includes replayable .log files as well as labeled and unlabeled .csv files, supporting a wide range of development and evaluation requirements. Furthermore, the dataset encompasses nine unique attack scenarios, ranging from Denial of Service (DoS) and gear spoofing to stationary state attacks, among others.

创建时间：

2023-08-09

搜集汇总

数据集介绍

构建方式

在车载网络安全研究领域，针对控制器局域网（CAN）总线缺乏有效入侵检测数据集的现状，can-train-and-test数据集通过系统化采集流程构建而成。研究团队选取了来自两个制造商的四款不同车型，包括轿车、运动型多用途车和皮卡，以覆盖多样化的车辆架构。数据采集通过车载诊断端口接入，利用Korlan USB2CAN设备与SocketCAN工具链，在真实道路行驶和静态附件模式下同步记录正常流量与攻击流量。攻击实验设计涵盖九类独特攻击向量，包括拒绝服务、模糊测试及多种欺骗攻击，其中部分高严重性攻击在行驶过程中实时实施以保障数据真实性。原始日志文件经过标准化时间戳、统一接口标识及格式转换处理，最终生成可回放的.log文件与带标签的.csv文件，为机器学习任务提供结构化数据支持。

使用方法

为便于研究社区使用，数据集提供多种格式与接口支持。原始.log文件可通过Linux SocketCAN子系统与can-utils工具链直接回放，模拟真实网络流量环境，支持实时攻击重放与协议分析。预处理后的.csv文件包含时间戳、仲裁标识符、数据域及攻击标签四列，可直接导入pandas等数据分析库进行特征工程与模型训练。针对机器学习任务，数据集已划分为训练与测试子集，研究者可依据评估目标选择相应子集：若关注模型对已知威胁的检测能力，可使用已知车辆与攻击的测试集；若评估模型泛化至新型车辆或未知攻击的能力，则可选用对应未知场景的测试集。此外，数据集中包含的驾驶模式与附件模式数据支持针对不同车辆状态的自适应入侵检测系统开发，为车载网络安全研究提供全面且灵活的基准平台。

背景与挑战

背景概述

随着现代汽车电子化程度的提升，车载网络（IVNs）中的控制器局域网（CAN）总线已成为车辆安全关键通信的核心基础设施。然而，CAN总线在设计之初未考虑安全机制，缺乏认证、授权与加密等基本防护，使其易受多种网络攻击。为应对这一挑战，丹麦技术大学的Brooke Lampe与Weizhi Meng于2023年推出了名为can-train-and-test的精选数据集，旨在支持汽车入侵检测系统（IDS）的研发与评估。该数据集汇集了来自四款不同车型的真实CAN流量数据，涵盖九类独特攻击，包括拒绝服务、欺骗与模糊测试等，并通过标注与未标注的多种格式提供，以促进机器学习模型的训练与测试。其核心研究在于降低汽车安全研究的入门门槛，推动跨车型与跨攻击类型的泛化能力验证，对提升车载网络安全防护水平具有重要学术与实践价值。

当前挑战

在汽车入侵检测领域，现有公开数据集常面临多重局限：攻击样本不足、车辆类型单一、数据保真度低以及标签缺失等问题，制约了IDS模型的泛化与鲁棒性评估。can-train-and-test数据集着力应对这些挑战，其构建过程需克服高保真数据采集的安全风险，例如在真实行驶环境中实施攻击实验，同时需平衡攻击频率以避免触发现代车辆的安全防护机制。此外，数据标注需区分高度相似的正常与欺骗性流量，而多车型数据的一致性处理亦增加了数据清洗与标准化的复杂性。这些挑战共同指向了汽车网络安全数据集的稀缺性与高标准需求，凸显了该数据集在推动领域发展中的关键作用。

常用场景

经典使用场景

在车载网络安全研究领域，can-train-and-test数据集被广泛用于开发和评估基于机器学习的入侵检测系统。该数据集通过提供来自四款不同车型的真实控制器区域网络流量数据，涵盖了九种独特的攻击类型，包括拒绝服务、欺骗和模糊测试等。研究人员能够利用其精心划分的训练与测试子集，系统性地验证检测模型在已知与未知车辆、已知与未知攻击场景下的泛化能力，从而推动车载网络异常检测算法的创新与优化。

解决学术问题

该数据集有效解决了车载网络安全研究中数据匮乏与质量不足的核心难题。通过提供高保真、多车型、多攻击类型的标注数据，它支持了监督与无监督学习范式的入侵检测模型开发。其设计克服了现有公开数据集中攻击变体有限、车辆多样性不足、标签缺失等缺陷，为学术界提供了评估模型跨车型泛化能力与对抗未知攻击性能的基准，显著降低了车载安全研究的入门门槛。

实际应用

在实际应用中，can-train-and-test数据集为汽车制造商和安全供应商提供了宝贵的测试资源。基于该数据集训练的入侵检测模型可部署于真实车辆的网络中，实时监控控制器区域网络流量，及时识别恶意注入、欺骗等攻击行为。这有助于提升现代智能汽车的主动防御能力，保障关键驾驶系统的安全运行，并为车载防火墙、过滤技术等安全解决方案的研发提供数据支撑。

数据集最近研究