Acti
收藏arXiv2024-10-19 更新2024-10-22 收录
下载链接:
https://github.com/AutoCS-wyh/Automotive-cyber-threat-intelligence-corpus
下载链接
链接失效反馈加速链接:
资源简介:
Acti数据集由北京航空航天大学创建,专注于挖掘自动驾驶车辆网络安全威胁情报的实体及其关联。该数据集包含908份真实的汽车网络安全报告,涵盖3678个句子、8195个安全实体和4852个语义关系。数据集的创建过程包括从国家漏洞数据库和特定车辆威胁情报平台收集数据,并通过BIOES联合标注策略进行标注。Acti数据集主要应用于汽车网络安全威胁情报建模,旨在通过知识提取技术从大量网络安全数据中获取有价值信息,以实现主动安全防御。
The Acti dataset was developed by Beihang University, focusing on extracting entities and their associations related to cybersecurity threat intelligence for autonomous vehicles. This dataset contains 908 real automotive cybersecurity reports, covering 3,678 sentences, 8,195 security entities, and 4,852 semantic relations. The dataset construction process involves collecting data from the National Vulnerability Database and dedicated vehicle threat intelligence platforms, followed by annotation using the BIOES joint labeling strategy. The Acti dataset is mainly applied to automotive cybersecurity threat intelligence modeling, with the goal of acquiring valuable information from large-scale cybersecurity data through knowledge extraction technologies to realize proactive security defense.
提供机构:
北京航空航天大学
创建时间:
2024-10-19
原始信息汇总
Automotive-cyber-threat-intelligence-corpus
数据集概述
该数据集用于连接自动驾驶车辆的网络威胁情报建模。
实验环境
- NVIDIA GeForce RTX 3090 GPU
- Python 3.7
- CUDA 11.2
- PaddlePaddle-GPU 2.3.2
- paddlenlp 2.1.1
数据描述
- 原始数据: 非结构化的网络安全数据(.txt文件)
- Brat标注数据: 使用brat工具的标注数据文件(.ann文件)
- BIOES: "BIOES" - "实体类型" - "关系类型" - "实体角色" 联合标注数据(.txt文件)
源代码描述
- 格式转换: BIOES联合标注.py
- 预处理: read.py; preprocess.py
- 深度学习模型训练: BERT-BiLSTM-att-CRF; BiLSTM-dynamic-att-LSTM
Brat工具
- https://github.com/nlplab/brat/archive/refs/tags/v1.3p1.tar.gz
AI搜集汇总
数据集介绍

构建方式
Acti数据集的构建过程包括两个主要步骤:数据收集和数据处理。数据收集阶段,研究团队通过国家漏洞数据库(NVD)和特定的车辆威胁情报平台、网络安全会议、报告及文献等渠道,收集了908条真实的车辆网络安全数据。数据处理阶段,团队首先定义了车辆网络安全威胁情报(CTI)本体模型,以描述实体类别及其相互关系,随后使用brat工具进行手动标注,并将标注结果转换为“BIOES”-“实体类型”-“关系类型”-“实体角色”联合标注格式。
特点
Acti数据集的主要特点在于其专注于车辆网络安全领域的威胁情报实体及其关系的挖掘。该数据集包含了908条真实网络安全报告,涵盖3678个句子、8195个安全实体和4852个语义关系。此外,数据集采用了联合标注策略,能够有效识别重叠关系,并结合了车辆网络安全本体模型,确保了数据的结构化和语义一致性。
使用方法
Acti数据集可用于训练和评估网络安全威胁情报模型,特别是针对车辆网络安全领域的实体和关系提取任务。研究者可以通过GitHub获取该数据集,并利用其进行深度学习模型的训练和测试。数据集的联合标注格式和丰富的实体关系信息,使其成为开发和验证新型网络安全威胁情报提取算法的宝贵资源。
背景与挑战
背景概述
随着智能交通系统的快速发展,连接自主车辆(CAVs)已成为全球交通行业的一项重大技术突破。这些车辆通过提高效率、减少拥堵和降低事故发生率,显著提升了交通安全。然而,随着自动化和连接性的增强,新的网络安全风险也随之出现。黑客利用这些潜在的攻击面,甚至可能获得车辆的控制权。近年来,针对CAVs的网络攻击频率、规模和复杂性呈指数级增长,导致隐私泄露、经济损失、人身伤害甚至国家公共安全受到威胁。为应对这些挑战,网络威胁情报(CTI)成为实现主动防御和及时响应未知或新兴威胁的理想方式。然而,现有的网络安全数据集并未专门针对汽车领域的CTI建模研究。为此,王颖辉等研究人员于2024年创建了Acti数据集,该数据集专注于汽车网络安全知识挖掘,包含908份真实的汽车网络安全报告,涵盖3678个句子、8195个安全实体和4852个语义关系。该数据集的创建填补了汽车领域CTI建模研究的空白,为评估现有算法性能和推动汽车领域CTI建模研究提供了宝贵资源。
当前挑战
Acti数据集在构建过程中面临多项挑战。首先,汽车领域的网络安全实体种类繁多,从电子控制单元(ECU)、数据、车载网络到其各种功能及其面临的潜在威胁和漏洞,这些实体的组成不规则,且面临语义异质性的挑战。其次,汽车CTI文本中存在许多重叠的关联实体,即一个实体可能同时涉及多个语义关系,这可能导致在CTI数据挖掘过程中识别这些实体和关系的困难。此外,现有的CTI知识提取或建模研究仍处于早期阶段,主要依赖于管道方法,这些方法可能存在实体识别中的错误传播问题,并忽视了实体识别与关系提取之间的关联。尽管Acti数据集的创建为汽车领域CTI建模提供了重要支持,但如何有效提取和分析这些复杂且异质的数据,仍是一个亟待解决的难题。
常用场景
经典使用场景
在智能交通系统中,连接自主车辆(CAVs)面临着日益严重的网络攻击威胁。Acti数据集通过收集和标注908份真实的汽车网络安全报告,涵盖了3678个句子、8195个安全实体和4852个语义关系,为网络威胁情报(CTI)建模提供了宝贵的资源。该数据集的经典使用场景包括:通过知识提取技术从庞大的网络安全数据中获取有价值的信息,以实现对新兴车辆网络威胁的主动防御和及时响应。此外,Acti数据集还支持对现有算法性能的评估,并推动汽车领域CTI建模研究的进一步发展。
实际应用
在实际应用中,Acti数据集为汽车制造商、网络安全公司和智能交通系统运营商提供了强大的工具,用于识别和分析潜在的网络威胁。通过训练基于该数据集的深度学习模型,可以自动从大量非结构化数据中提取CTI知识,从而实现对车辆网络威胁的实时监测和预警。此外,该数据集还可用于开发和测试新的网络安全策略和防御机制,确保车辆及其生态系统的安全性。
衍生相关工作
Acti数据集的发布激发了大量相关研究工作,特别是在CTI知识提取和建模领域。例如,基于该数据集,研究人员开发了多种端到端的实体-关系联合提取模型,如BERT-BiLSTM-att-CRF和BiLSTM-dynamic-att-LSTM,这些模型在CTI任务中表现出色。此外,Acti数据集还促进了跨学科研究,如将网络安全与功能安全相结合,探索更全面的车辆安全解决方案。
以上内容由AI搜集并总结生成



