five

Acti|自动驾驶数据集|网络安全数据集

收藏
arXiv2024-10-19 更新2024-10-22 收录
自动驾驶
网络安全
下载链接:
https://github.com/AutoCS-wyh/Automotive-cyber-threat-intelligence-corpus
下载链接
链接失效反馈
资源简介:
Acti数据集由北京航空航天大学创建,专注于挖掘自动驾驶车辆网络安全威胁情报的实体及其关联。该数据集包含908份真实的汽车网络安全报告,涵盖3678个句子、8195个安全实体和4852个语义关系。数据集的创建过程包括从国家漏洞数据库和特定车辆威胁情报平台收集数据,并通过BIOES联合标注策略进行标注。Acti数据集主要应用于汽车网络安全威胁情报建模,旨在通过知识提取技术从大量网络安全数据中获取有价值信息,以实现主动安全防御。
提供机构:
北京航空航天大学
创建时间:
2024-10-19
原始信息汇总

Automotive-cyber-threat-intelligence-corpus

数据集概述

该数据集用于连接自动驾驶车辆的网络威胁情报建模。

实验环境

  • NVIDIA GeForce RTX 3090 GPU
  • Python 3.7
  • CUDA 11.2
  • PaddlePaddle-GPU 2.3.2
  • paddlenlp 2.1.1

数据描述

  • 原始数据: 非结构化的网络安全数据(.txt文件)
  • Brat标注数据: 使用brat工具的标注数据文件(.ann文件)
  • BIOES: "BIOES" - "实体类型" - "关系类型" - "实体角色" 联合标注数据(.txt文件)

源代码描述

  • 格式转换: BIOES联合标注.py
  • 预处理: read.py; preprocess.py
  • 深度学习模型训练: BERT-BiLSTM-att-CRF; BiLSTM-dynamic-att-LSTM

Brat工具

  • https://github.com/nlplab/brat/archive/refs/tags/v1.3p1.tar.gz
AI搜集汇总
数据集介绍
main_image_url
构建方式
Acti数据集的构建过程包括两个主要步骤:数据收集和数据处理。数据收集阶段,研究团队通过国家漏洞数据库(NVD)和特定的车辆威胁情报平台、网络安全会议、报告及文献等渠道,收集了908条真实的车辆网络安全数据。数据处理阶段,团队首先定义了车辆网络安全威胁情报(CTI)本体模型,以描述实体类别及其相互关系,随后使用brat工具进行手动标注,并将标注结果转换为“BIOES”-“实体类型”-“关系类型”-“实体角色”联合标注格式。
特点
Acti数据集的主要特点在于其专注于车辆网络安全领域的威胁情报实体及其关系的挖掘。该数据集包含了908条真实网络安全报告,涵盖3678个句子、8195个安全实体和4852个语义关系。此外,数据集采用了联合标注策略,能够有效识别重叠关系,并结合了车辆网络安全本体模型,确保了数据的结构化和语义一致性。
使用方法
Acti数据集可用于训练和评估网络安全威胁情报模型,特别是针对车辆网络安全领域的实体和关系提取任务。研究者可以通过GitHub获取该数据集,并利用其进行深度学习模型的训练和测试。数据集的联合标注格式和丰富的实体关系信息,使其成为开发和验证新型网络安全威胁情报提取算法的宝贵资源。
背景与挑战
背景概述
随着智能交通系统的快速发展,连接自主车辆(CAVs)已成为全球交通行业的一项重大技术突破。这些车辆通过提高效率、减少拥堵和降低事故发生率,显著提升了交通安全。然而,随着自动化和连接性的增强,新的网络安全风险也随之出现。黑客利用这些潜在的攻击面,甚至可能获得车辆的控制权。近年来,针对CAVs的网络攻击频率、规模和复杂性呈指数级增长,导致隐私泄露、经济损失、人身伤害甚至国家公共安全受到威胁。为应对这些挑战,网络威胁情报(CTI)成为实现主动防御和及时响应未知或新兴威胁的理想方式。然而,现有的网络安全数据集并未专门针对汽车领域的CTI建模研究。为此,王颖辉等研究人员于2024年创建了Acti数据集,该数据集专注于汽车网络安全知识挖掘,包含908份真实的汽车网络安全报告,涵盖3678个句子、8195个安全实体和4852个语义关系。该数据集的创建填补了汽车领域CTI建模研究的空白,为评估现有算法性能和推动汽车领域CTI建模研究提供了宝贵资源。
当前挑战
Acti数据集在构建过程中面临多项挑战。首先,汽车领域的网络安全实体种类繁多,从电子控制单元(ECU)、数据、车载网络到其各种功能及其面临的潜在威胁和漏洞,这些实体的组成不规则,且面临语义异质性的挑战。其次,汽车CTI文本中存在许多重叠的关联实体,即一个实体可能同时涉及多个语义关系,这可能导致在CTI数据挖掘过程中识别这些实体和关系的困难。此外,现有的CTI知识提取或建模研究仍处于早期阶段,主要依赖于管道方法,这些方法可能存在实体识别中的错误传播问题,并忽视了实体识别与关系提取之间的关联。尽管Acti数据集的创建为汽车领域CTI建模提供了重要支持,但如何有效提取和分析这些复杂且异质的数据,仍是一个亟待解决的难题。
常用场景
经典使用场景
在智能交通系统中,连接自主车辆(CAVs)面临着日益严重的网络攻击威胁。Acti数据集通过收集和标注908份真实的汽车网络安全报告,涵盖了3678个句子、8195个安全实体和4852个语义关系,为网络威胁情报(CTI)建模提供了宝贵的资源。该数据集的经典使用场景包括:通过知识提取技术从庞大的网络安全数据中获取有价值的信息,以实现对新兴车辆网络威胁的主动防御和及时响应。此外,Acti数据集还支持对现有算法性能的评估,并推动汽车领域CTI建模研究的进一步发展。
实际应用
在实际应用中,Acti数据集为汽车制造商、网络安全公司和智能交通系统运营商提供了强大的工具,用于识别和分析潜在的网络威胁。通过训练基于该数据集的深度学习模型,可以自动从大量非结构化数据中提取CTI知识,从而实现对车辆网络威胁的实时监测和预警。此外,该数据集还可用于开发和测试新的网络安全策略和防御机制,确保车辆及其生态系统的安全性。
衍生相关工作
Acti数据集的发布激发了大量相关研究工作,特别是在CTI知识提取和建模领域。例如,基于该数据集,研究人员开发了多种端到端的实体-关系联合提取模型,如BERT-BiLSTM-att-CRF和BiLSTM-dynamic-att-LSTM,这些模型在CTI任务中表现出色。此外,Acti数据集还促进了跨学科研究,如将网络安全与功能安全相结合,探索更全面的车辆安全解决方案。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录

CrowdHuman

CrowdHuman是一个用于评估人群场景中检测器性能的基准数据集。该数据集规模大、注释丰富且具有高多样性,包含训练、验证和测试集,共计47万个标注的人体实例,平均每张图像有23个人,包含各种遮挡情况。每个人体实例都标注有头部边界框、可见区域边界框和全身边界框。

github 收录