Assurance Case Graphs Dataset
收藏arXiv2026-04-22 更新2026-04-24 收录
下载链接:
https://github.com/farizikhwantri/assuregraph
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由Simula研究实验室构建,包含人类撰写和LLM生成的保证案例图,涵盖安全树结构和GSN图两种形式,总计263条数据。数据集包含节点文本(如目标、证据等)及人工标注的边关系,支持链接预测和来源分析任务。数据通过整合已有研究[3,27,31]并扩展GPT-4生成的案例边结构构建,应用于验证AI生成论证的结构可信度与偏见检测,助力安全关键系统的合规性评估。
This dataset was constructed by Simula Research Laboratory. It contains assurance case graphs authored by humans and generated by large language models (LLMs), covering two formats: safety tree structures and GSN graphs, with a total of 263 entries. The dataset includes node texts (such as goals, evidence, etc.) and manually annotated edge relationships, supporting tasks including link prediction and provenance analysis. It was built by integrating existing studies [3, 27, 31] and expanding the case edge structures generated by GPT-4, and is applied to verify the structural credibility and bias detection of AI-generated arguments, assisting compliance assessment for safety-critical systems.
提供机构:
Simula研究实验室
创建时间:
2026-04-22
原始信息汇总
好的,这是根据您提供的README文件内容总结的数据集详情。
数据集概述:AssureGraph
本数据集是论文 "Evaluating Assurance Cases as Text-Attributed Graphs for Predicate Structure and Provenance Analysis" (评审中) 的官方实现的一部分,旨在通过图评估框架分析保证案例(Assurance Cases)的语义和结构模式。
1. 核心概念
- 保证案例: 用于安全、安保和法规合规的结构化论证文档。
- 文本属性论证图 (TAGs): 将每个保证案例转化为图结构,其中节点代表文本元素(如目标、主张、证据),边代表支持或依赖关系,节点特征为文本内容的 BERT 嵌入。
2. 任务与目标
该框架利用图神经网络 (GNNs) 执行以下任务:
- 链接预测: 识别论证元素之间的连接关系,用于恢复缺失或纠正错误的链接。
- 图分类: 区分保证案例是由人类编写还是由大语言模型 (LLM) 生成,用于检测偏差。
- 可解释性分析: 使用 GNNExplainer 等技术分析节点/边的重要性,以揭示GNN决策的依据。
3. 数据集内容
该数据集包含三种类型的保证案例图,均转换为 JSON 格式(节点和边)。
| 数据集名称 | 来源 | 结构风格 | 作者来源 | 图数量 |
|---|---|---|---|---|
| Safety Trees | Agrawal et al. (2019) | 树状 | 人类 | 39 |
| GSN-1 | Sivakumar et al. | 图状 | 人类 + GPT-4o | 34 |
| GSN-2 | Odu et al. | 图状 | 人类 + GPT-4o | 190 |
4. 数据构建方法
论文中使用了先前研究的系统提示词(System Prompt)并进行了最小修改,以引导LLM进行图构建。该数据集还包含了用于链接预测和图分类任务的LLM基线提示词(Prompt)。
5. 访问方式
编译后的数据集可直接通过以下链接下载: Google Drive
6. 关键参考文献
- Safety Trees: Leveraging Artifact Trees to Evolve and Reuse Safety Cases. (ICSE 2019)
- GSN-1: GPT-4 and Safety Case Generation: An Exploratory Analysis. (arXiv, 2023)
- GSN-2: Prompting GPT–4 to support automatic safety case generation. (Expert Systems with Applications, 2024)
搜集汇总
数据集介绍

构建方式
该数据集的构建基于三份公开的保障案例语料库,涵盖了安全树格式与目标结构化标注格式两种不同的论证表示范式。研究者从Agrawal等人的安全树数据集中提取了以需求为单位组织的纯人工编写的案例,同时从Odu与Sivakumar等人的工作中收集了基于GSN格式、以产品为单位的案例,并利用GPT-4o生成了对应的机器版本。针对LLM生成案例中缺失的链接结构,研究团队设计了一套受控提示策略,引导同一LLM基于完整上下文推断论证元素之间的谓词关系,从而为每个生成案例补全边信息。最终形成了包含节点文本属性与边拓扑结构的图数据集,支持后续的结构与溯源分析。
特点
该数据集最显著的特点在于其双重属性:既包含了不同结构形态的保障案例(树状与图状),又涵盖了不同来源的论证数据(人工与LLM生成),为研究论证结构的异同提供了对照基础。数据集中的每个案例均被建模为文本属性图,节点携带由预训练语言模型编码的语义嵌入,边则代表论证元素之间的逻辑指向关系。此外,LLM生成的案例在边结构上呈现出与人工案例不同的层次化链接模式,边缘级别的语义质量分析显示它们能较好地在语义层面恢复人工案例的节点集合,但在结构关系的一致性上存在显著偏差。这一特性使得数据集天然适用于检测生成性偏见与结构差异。
使用方法
该数据集设计用于支撑两类核心任务:链接预测与图分类。在链接预测任务中,研究者使用图神经网络学习论证元素之间的隐含关系,评估模型在人工标准数据、LLM生成数据以及混合数据上的泛化能力,从而衡量不同来源数据的结构可迁移性。在图分类任务中,数据集被用来训练区分人工与LLM生成案例的模型,以揭示生成式语言模型在论证结构中的系统性偏见。此外,研究者还借助GNNExplainer等解释工具对分类模型的行为进行归因分析,评估模型在节点与边层面上解释的忠实度。数据集的文本属性图格式天然支持使用GCN、GAT、GraphSAGE及UniGraph等主流图模型进行训练与评估。
背景与挑战
背景概述
在安全关键系统中,保证案例(Assurance Case)作为论证系统属性满足合规与安全要求的结构化文档,其构建与评估长期以来依赖人工操作,不仅劳动密集且易出错。为应对自动化生成与审查的演进趋势,Fariz Ikhwantri 和 Dusica Marijan 于 2026 年在 Simula 研究实验室提出了 Assurance Case Graphs 数据集,将保证案例建模为带文本属性的图结构,旨在解决结构推理与溯源分析两大核心问题。该数据集整合了来自三项先前研究的人类撰写与 GPT-4o 生成的保证案例,涵盖 Safety Tree 与 GSN 两种表示范式,为评估图神经网络(GNN)在链接预测与图分类任务上的泛化能力提供了基准。其开创性贡献在于构建了首个同时支持跨域结构学习与人类/LLM 溯源检测的公开数据集,为安全工程领域引入数据驱动的论证评估范式奠定了基础。
当前挑战
该数据集所应对的领域挑战主要包括:其一,保证案例的自动推理面临结构表征难题——传统的树状或文本方法难以捕捉论证元素间的复杂依赖与隐式关系,亟需图模型以学习可泛化的链接模式;其二,LLM 生成的保证案例在结构上与人类撰写案例存在显著偏差,表现为层次链接模式与节点分布的不同,如何在不依赖人工审查的情况下可靠检测这种溯源偏见成为核心问题。在构建过程中,研究者面临双重挑战:一是原始 LLM 生成数据仅提供节点文本而缺失边信息,需通过提示工程复原谓词结构,但实验显示生成的边级语义对齐(Edge F1 仅 0.176–0.503)远低于节点级语义对齐(Node Recall 达 0.75–0.99),凸显了结构重建的质量瓶颈;二是人类撰写样本在实际中极度稀缺且涉及数据敏感性,导致训练数据规模受限,模型在跨域泛化时容易出现分布偏移与过拟合,亟需借助半监督学习或图基础模型来缓解数据稀疏性带来的泛化风险。
常用场景
经典使用场景
在安全关键系统的论证与认证领域,Assurance Case Graphs Dataset被经典地用于评估保证案例的结构完整性与来源可追溯性。该数据集将保证案例建模为文本属性图,通过图神经网络进行链接预测,以学习并推断论证元素之间的隐含或缺失关系。研究人员利用该数据集训练GNN模型,使其能够在半监督或跨域场景下,从人类撰写或大语言模型生成的保证案例中准确预测论证结构中的逻辑连接,从而验证模型对复杂论证层次的理解能力与泛化性能。
解决学术问题
该数据集有效解决了保证案例自动评估中的两大核心学术难题:结构推理与偏见检测。在结构推理方面,它推动了图神经网络在论证图上的链路预测研究,揭示了LLM生成案例与人类撰写案例在层次化链接模式上存在系统性差异。在偏见检测方面,数据集支持图分类任务,使模型能够以高F1分数区分人类与机器生成的保证案例,从而量化LLM在论证生成中的结构性偏差。这为论证工程领域提供了首个可公开复现的图结构基准,促进了自动化评估方法的可信度与透明性研究。
衍生相关工作
围绕该数据集,已衍生出一系列开创性工作。首先,UniGraph等图基础模型被引入,通过自监督预训练提升少量标注样本下的链接预测鲁棒性。其次,GraphPrompt框架被用于将链路预测预训练迁移至图分类任务,在极少量人类标注下实现高精度来源检测。此外,GNNExplainer等可解释性方法被系统评估于该数据集,揭示了当前模型在节点与边归因忠实度上的不足,催生了面向论证图的可信解释研究方向。这些工作共同推动了对LLM生成论证中结构偏见与推理透明性的深入理解。
以上内容由遇见数据集搜集并总结生成



