five

Acti|自动驾驶数据集|网络安全数据集

收藏
arXiv2024-10-19 更新2024-10-22 收录
自动驾驶
网络安全
下载链接:
https://github.com/AutoCS-wyh/Automotive-cyber-threat-intelligence-corpus
下载链接
链接失效反馈
加速链接:
资源简介:
Acti数据集由北京航空航天大学创建,专注于挖掘自动驾驶车辆网络安全威胁情报的实体及其关联。该数据集包含908份真实的汽车网络安全报告,涵盖3678个句子、8195个安全实体和4852个语义关系。数据集的创建过程包括从国家漏洞数据库和特定车辆威胁情报平台收集数据,并通过BIOES联合标注策略进行标注。Acti数据集主要应用于汽车网络安全威胁情报建模,旨在通过知识提取技术从大量网络安全数据中获取有价值信息,以实现主动安全防御。
提供机构:
北京航空航天大学
创建时间:
2024-10-19
原始信息汇总

Automotive-cyber-threat-intelligence-corpus

数据集概述

该数据集用于连接自动驾驶车辆的网络威胁情报建模。

实验环境

  • NVIDIA GeForce RTX 3090 GPU
  • Python 3.7
  • CUDA 11.2
  • PaddlePaddle-GPU 2.3.2
  • paddlenlp 2.1.1

数据描述

  • 原始数据: 非结构化的网络安全数据(.txt文件)
  • Brat标注数据: 使用brat工具的标注数据文件(.ann文件)
  • BIOES: "BIOES" - "实体类型" - "关系类型" - "实体角色" 联合标注数据(.txt文件)

源代码描述

  • 格式转换: BIOES联合标注.py
  • 预处理: read.py; preprocess.py
  • 深度学习模型训练: BERT-BiLSTM-att-CRF; BiLSTM-dynamic-att-LSTM

Brat工具

  • https://github.com/nlplab/brat/archive/refs/tags/v1.3p1.tar.gz
AI搜集汇总
数据集介绍
main_image_url
构建方式
Acti数据集的构建过程包括两个主要步骤:数据收集和数据处理。数据收集阶段,研究团队通过国家漏洞数据库(NVD)和特定的车辆威胁情报平台、网络安全会议、报告及文献等渠道,收集了908条真实的车辆网络安全数据。数据处理阶段,团队首先定义了车辆网络安全威胁情报(CTI)本体模型,以描述实体类别及其相互关系,随后使用brat工具进行手动标注,并将标注结果转换为“BIOES”-“实体类型”-“关系类型”-“实体角色”联合标注格式。
特点
Acti数据集的主要特点在于其专注于车辆网络安全领域的威胁情报实体及其关系的挖掘。该数据集包含了908条真实网络安全报告,涵盖3678个句子、8195个安全实体和4852个语义关系。此外,数据集采用了联合标注策略,能够有效识别重叠关系,并结合了车辆网络安全本体模型,确保了数据的结构化和语义一致性。
使用方法
Acti数据集可用于训练和评估网络安全威胁情报模型,特别是针对车辆网络安全领域的实体和关系提取任务。研究者可以通过GitHub获取该数据集,并利用其进行深度学习模型的训练和测试。数据集的联合标注格式和丰富的实体关系信息,使其成为开发和验证新型网络安全威胁情报提取算法的宝贵资源。
背景与挑战
背景概述
随着智能交通系统的快速发展,连接自主车辆(CAVs)已成为全球交通行业的一项重大技术突破。这些车辆通过提高效率、减少拥堵和降低事故发生率,显著提升了交通安全。然而,随着自动化和连接性的增强,新的网络安全风险也随之出现。黑客利用这些潜在的攻击面,甚至可能获得车辆的控制权。近年来,针对CAVs的网络攻击频率、规模和复杂性呈指数级增长,导致隐私泄露、经济损失、人身伤害甚至国家公共安全受到威胁。为应对这些挑战,网络威胁情报(CTI)成为实现主动防御和及时响应未知或新兴威胁的理想方式。然而,现有的网络安全数据集并未专门针对汽车领域的CTI建模研究。为此,王颖辉等研究人员于2024年创建了Acti数据集,该数据集专注于汽车网络安全知识挖掘,包含908份真实的汽车网络安全报告,涵盖3678个句子、8195个安全实体和4852个语义关系。该数据集的创建填补了汽车领域CTI建模研究的空白,为评估现有算法性能和推动汽车领域CTI建模研究提供了宝贵资源。
当前挑战
Acti数据集在构建过程中面临多项挑战。首先,汽车领域的网络安全实体种类繁多,从电子控制单元(ECU)、数据、车载网络到其各种功能及其面临的潜在威胁和漏洞,这些实体的组成不规则,且面临语义异质性的挑战。其次,汽车CTI文本中存在许多重叠的关联实体,即一个实体可能同时涉及多个语义关系,这可能导致在CTI数据挖掘过程中识别这些实体和关系的困难。此外,现有的CTI知识提取或建模研究仍处于早期阶段,主要依赖于管道方法,这些方法可能存在实体识别中的错误传播问题,并忽视了实体识别与关系提取之间的关联。尽管Acti数据集的创建为汽车领域CTI建模提供了重要支持,但如何有效提取和分析这些复杂且异质的数据,仍是一个亟待解决的难题。
常用场景
经典使用场景
在智能交通系统中,连接自主车辆(CAVs)面临着日益严重的网络攻击威胁。Acti数据集通过收集和标注908份真实的汽车网络安全报告,涵盖了3678个句子、8195个安全实体和4852个语义关系,为网络威胁情报(CTI)建模提供了宝贵的资源。该数据集的经典使用场景包括:通过知识提取技术从庞大的网络安全数据中获取有价值的信息,以实现对新兴车辆网络威胁的主动防御和及时响应。此外,Acti数据集还支持对现有算法性能的评估,并推动汽车领域CTI建模研究的进一步发展。
实际应用
在实际应用中,Acti数据集为汽车制造商、网络安全公司和智能交通系统运营商提供了强大的工具,用于识别和分析潜在的网络威胁。通过训练基于该数据集的深度学习模型,可以自动从大量非结构化数据中提取CTI知识,从而实现对车辆网络威胁的实时监测和预警。此外,该数据集还可用于开发和测试新的网络安全策略和防御机制,确保车辆及其生态系统的安全性。
衍生相关工作
Acti数据集的发布激发了大量相关研究工作,特别是在CTI知识提取和建模领域。例如,基于该数据集,研究人员开发了多种端到端的实体-关系联合提取模型,如BERT-BiLSTM-att-CRF和BiLSTM-dynamic-att-LSTM,这些模型在CTI任务中表现出色。此外,Acti数据集还促进了跨学科研究,如将网络安全与功能安全相结合,探索更全面的车辆安全解决方案。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

ner_training_stanza

该数据集包含文本数据及其相应的命名实体识别信息。文本被分词,并且命名实体识别信息既包括词级别也包括字符级别。数据集分为训练集、验证集和测试集,适用于进一步的自然语言处理任务。

huggingface 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

China Family Panel Studies (CFPS)

Please visit CFPS official data platform to download the newest data, WeChat official account of CFPS: ISSS_CFPS. The CFPS 2010 baseline survey conducted face-to-face interviews with the sampled households’ family members who live in the sample communities. It also interviewed those family members who were elsewhere in the same county. For those who were not present at home at the time of interview, basic information was collected from their family members at presence. All family members who had blood/marital/adoptive ties with the household were identified as permanent respondents. Prospective family members including new-borns and adopted children.

DataCite Commons 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录