Olec/cyber-threat-intelligence_v2
收藏Hugging Face2023-04-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Olec/cyber-threat-intelligence_v2
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int64
- name: text
dtype: string
- name: entities
list:
- name: end_offset
dtype: int64
- name: id
dtype: int64
- name: label
dtype: string
- name: start_offset
dtype: int64
- name: relations
list:
- name: from_id
dtype: int64
- name: id
dtype: int64
- name: to_id
dtype: int64
- name: type
dtype: string
splits:
- name: test
num_bytes: 29518
num_examples: 72
- name: train
num_bytes: 147723
num_examples: 332
- name: validation
num_bytes: 36580
num_examples: 76
download_size: 119557
dataset_size: 213821
---
# Dataset Card for "cyber-threat-intelligence_v2"
updated version of mrmoor/cyber-threat-intelligence
RE and NER Dataset for Cyber Threat Intelegence (CTI)
T5 Model trained on NYT and this dataset: Olec/cyber_rebel
This dataset only contains sentences with realtions.
Full dataset is available at mrmoor/cyber-threat-intelligence.
数据集信息:
特征字段:
- 字段名:id,数据类型:64位整数(int64)
- 字段名:text,数据类型:字符串(string)
- 字段名:entities(实体):列表类型,包含以下子字段:
- end_offset(结束偏移量):64位整数
- id(标识符):64位整数
- label(标签):字符串
- start_offset(起始偏移量):64位整数
- 字段名:relations(关系):列表类型,包含以下子字段:
- from_id(源标识符):64位整数
- id(标识符):64位整数
- to_id(目标标识符):64位整数
- type(类型):字符串
数据划分:
- 划分名称:test,字节大小:29518,样本数量:72
- 划分名称:train,字节大小:147723,样本数量:332
- 划分名称:validation,字节大小:36580,样本数量:76
下载总大小:119557
数据集总存储大小:213821
# "cyber-threat-intelligence_v2"数据集卡片
本数据集为mrmoor/cyber-threat-intelligence的更新版本。
本数据集是面向网络威胁情报(Cyber Threat Intelligence, CTI)的关系抽取(Relation Extraction, RE)与命名实体识别(Named Entity Recognition, NER)专用数据集。
基于《纽约时报》(New York Times, NYT)与本数据集训练的T5模型为Olec/cyber_rebel。
本数据集仅收录带有关系标注的语句。
完整数据集可于mrmoor/cyber-threat-intelligence获取。
提供机构:
Olec
原始信息汇总
数据集概述
数据集名称
- 名称: cyber-threat-intelligence_v2
数据集特征
- 特征列表:
- id: 数据类型为 int64
- text: 数据类型为 string
- entities: 包含以下子特征
- end_offset: 数据类型为 int64
- id: 数据类型为 int64
- label: 数据类型为 string
- start_offset: 数据类型为 int64
- relations: 包含以下子特征
- from_id: 数据类型为 int64
- id: 数据类型为 int64
- to_id: 数据类型为 int64
- type: 数据类型为 string
数据集分割
- 分割详情:
- test: 大小为 29518 字节,包含 72 个样本
- train: 大小为 147723 字节,包含 332 个样本
- validation: 大小为 36580 字节,包含 76 个样本
数据集大小
- 下载大小: 119557 字节
- 数据集总大小: 213821 字节
搜集汇总
数据集介绍

构建方式
Olec/cyber-threat-intelligence_v2数据集的构建,专注于网络威胁情报领域,涵盖实体识别与关系提取的任务。数据集通过收集含有真实关系的句子,并标注出其中的实体及其关系,形成了一个结构化的数据集,以供机器学习模型训练之用。
特点
该数据集的主要特点是专注于网络威胁情报的实体和关系标注,具有明确的领域指向性。数据集包含三个部分:训练集、验证集和测试集,每一部分均包含id、文本、实体及其偏移量、关系及其连接的实体id和类型等信息,为模型训练和评估提供了丰富而准确的数据基础。
使用方法
使用该数据集时,用户可以根据自己的需求,下载相应的训练集、验证集和测试集。数据集以JSON格式存储,可以直接被机器学习框架读取。用户可以运用该数据集对模型进行训练,以提升模型在实体识别和关系提取任务上的性能。
背景与挑战
背景概述
在网络安全领域,威胁情报的准确解析与高效利用是保障信息资产安全的关键。Olec/cyber-threat-intelligence_v2数据集,作为网络威胁情报领域的重要资源,是在mrmoor/cyber-threat-intelligence基础上的更新版本,由T5模型在纽约时报数据及本数据集上训练而成。该数据集的核心研究问题聚焦于关系抽取和命名实体识别,旨在为网络安全分析人员提供有力的数据支撑,自创建以来,已成为相关领域研究的重要数据来源,对提升网络安全防御能力产生了深远影响。
当前挑战
尽管Olec/cyber-threat-intelligence_v2数据集为网络威胁情报领域的研究提供了有力支持,但在实际应用中仍面临诸多挑战。首先,数据集中仅包含含有关系的句子,可能导致在全面理解网络威胁情报时出现信息缺失。其次,构建过程中如何确保数据的质量和准确性,以及如何有效处理数据中的噪声和异常值,都是当前面临的实际问题。此外,随着网络威胁的不断演变,数据集的更新和维护也成为一个持续的挑战。
常用场景
经典使用场景
在网络安全领域,Olec/cyber-threat-intelligence_v2数据集被广泛应用于构建和维护网络威胁情报系统。其经典使用场景在于,通过训练自然语言处理模型,实现对网络威胁情报文本中的实体识别和关系抽取,从而准确识别出潜在的网络安全威胁及其相互关系。
解决学术问题
该数据集解决了学术研究中如何有效提取和利用网络威胁情报信息的问题。它为研究人员提供了标注详尽的实体和关系数据,有助于提升网络威胁情报的分析和预测准确性,对于加强网络安全防御体系具有重要意义。
衍生相关工作
基于此数据集,衍生了一系列相关研究工作,如T5模型的训练和优化,进一步推动了网络安全领域内自然语言处理技术的应用。这些研究不仅加深了对网络威胁情报的理解,也为网络安全防护技术的发展提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



