Forecasting QA Dataset

github2024-03-05 更新2024-05-31 收录

下载链接：

https://github.com/owensoh/Forecasting-QA-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

旨在创建一个高质量的网络安全领域预测问答数据集，用于未来预测目的（如模型训练）。数据集通过ChatGPT模型生成问题，使用MITRE攻击框架预处理的CTI报告摘要，并通过对齐模块和领域专家的验证确保问题与摘要的准确对齐。

This dataset is designed as a high-quality predictive question-answering dataset in the cybersecurity domain, for future prediction applications such as model training. Questions are generated using the ChatGPT model, paired with CTI report summaries preprocessed via the MITRE ATT&CK framework. The accurate alignment between the generated questions and the summaries is ensured through an alignment module and validation by domain experts.

创建时间：

2024-03-04

原始信息汇总

预测性问答数据集

数据集目的

创建一个高质量的网络安全领域预测性问答数据集，用于未来的预测目的（例如模型训练）。

数据集生成方法

问题生成：通过选定的ChatGPT模型（3.5或4 Turbo），针对MITRE攻击框架的每个组件生成问题。使用预处理的CTI报告摘要，该摘要基于MITRE攻击框架生成。
问题校验：通过对齐模块检查生成的问题是否与摘要本身对齐。对齐结果由领域专家手动检查，以确定对齐的准确性。
答案生成与评估：生成一个简单的思考链回答模块，创建一个多选题答案的混淆矩阵，以确定每个选项的难度。

搜集汇总

数据集介绍

构建方式

Forecasting QA数据集的构建过程依托于MITRE Attack Framework，通过ChatGPT模型（3.5或4 Turbo版本）生成与网络安全领域相关的问题。这些问题基于经过预处理的CTI报告摘要，确保其与MITRE Attack Framework的各个组件紧密关联。生成的问题随后通过一个对齐模块进行校验，以确保其与摘要内容的一致性，并由领域专家进行人工审核，进一步保证问题的准确性和相关性。此外，数据集还包含一个简单的思维链回答模块，用于生成多选题的混淆矩阵，以评估每个选项的难度。

特点

Forecasting QA数据集以其高质量和针对性著称，专注于网络安全领域的未来预测任务。数据集中的问题均经过严格的对齐校验和专家审核，确保了其与MITRE Attack Framework的高度一致性。此外，数据集通过思维链回答模块生成了多选题的混淆矩阵，为模型训练提供了丰富的难度评估信息。这些特点使得该数据集在网络安全领域的预测任务中具有显著的应用价值。

使用方法

Forecasting QA数据集的使用方法主要围绕模型训练和预测任务展开。用户可以通过加载数据集中的问题和答案，利用其生成的混淆矩阵进行模型训练，以提升模型在网络安全领域的预测能力。数据集中的问题经过对齐校验和专家审核，确保了其高质量和针对性，用户可直接将其应用于预测模型的训练和评估。此外，思维链回答模块生成的混淆矩阵为用户提供了详细的难度评估信息，有助于优化模型的训练过程。

背景与挑战

背景概述

Forecasting QA Dataset 是一个专注于网络安全领域的高质量预测问答数据集，旨在为未来的预测任务（如模型训练）提供支持。该数据集由研究人员基于 MITRE Attack Framework 构建，利用 ChatGPT 模型（3.5 或 4 Turbo）生成问题，并结合预处理后的网络威胁情报（CTI）报告摘要进行对齐验证。通过引入领域专家的手动审核，确保生成的问题与摘要内容高度一致。此外，数据集还采用了简单的思维链（Chain of Thought）回答模块，生成多选题的混淆矩阵以评估每个选项的难度。该数据集的创建为网络安全领域的预测模型研究提供了重要的数据基础，推动了该领域的技术发展。

当前挑战

Forecasting QA Dataset 在构建过程中面临多重挑战。首要挑战在于确保生成的问题与 MITRE Attack Framework 的组件及 CTI 报告摘要高度对齐，这需要依赖复杂的对齐模块和领域专家的手动审核，增加了数据构建的复杂性和时间成本。其次，生成的多选题答案需要通过混淆矩阵评估难度，这一过程对模型的逻辑推理能力和数据标注的准确性提出了较高要求。此外，网络安全领域的动态性和复杂性使得数据集的时效性和覆盖范围成为关键问题，需要不断更新和扩展以应对新兴威胁。这些挑战共同构成了该数据集在构建和应用中的主要难点。

常用场景

经典使用场景

Forecasting QA Dataset在网络安全领域中被广泛应用于未来事件的预测模型训练。通过结合MITRE Attack Framework和ChatGPT模型生成的问题，该数据集为研究人员提供了一个高质量的资源，用于测试和优化预测算法。其独特之处在于通过Alignment模块确保问题与CTI报告摘要的一致性，并由领域专家进行手动验证，确保了数据的准确性和可靠性。

解决学术问题

该数据集解决了网络安全领域中预测模型训练数据稀缺的问题。通过生成与MITRE Attack Framework相关的高质量问答对，研究人员能够更有效地训练模型，提升对未来网络攻击事件的预测能力。此外，Chain of Thought模块的引入为多选题的难度评估提供了科学依据，进一步推动了预测模型的精细化研究。

衍生相关工作

基于Forecasting QA Dataset，衍生了一系列经典研究工作，包括基于MITRE Attack Framework的自动化威胁预测模型、结合Chain of Thought的问答系统优化方法，以及针对网络安全领域的多模态数据融合技术。这些研究不仅扩展了数据集的应用范围，还为网络安全领域的学术和工业实践提供了新的思路和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集