SoundnessBench

Name: SoundnessBench
Creator: 加州大学洛杉矶分校、杜克大学、伊利诺伊大学厄巴纳-香槟分校
Published: 2024-12-04 17:24:33
License: 暂无描述

arXiv2024-12-04 更新2024-12-06 收录

下载链接：

https://huggingface.co/datasets/SoundnessBench/SoundnessBench

下载链接

链接失效反馈

官方服务：

资源简介：

SoundnessBench数据集由加州大学洛杉矶分校、杜克大学和伊利诺伊大学厄巴纳-香槟分校的研究团队创建，旨在评估神经网络验证器的可靠性。该数据集包含206个隐藏的反例，这些反例被设计为难以通过常规对抗攻击发现。数据集的创建过程涉及训练神经网络，使其在大多数输入上表现正确和鲁棒，但在预定义的反例上表现错误。该数据集主要用于测试神经网络验证器的声誉性，旨在解决现有验证器在面对隐藏反例时可能出现的误判问题。

提供机构：

加州大学洛杉矶分校、杜克大学、伊利诺伊大学厄巴纳-香槟分校

创建时间：

2024-12-04

搜集汇总

数据集介绍

构建方式

SoundnessBench数据集的构建方式独具匠心，通过精心设计的训练方法生成具有隐藏反例的神经网络实例。具体而言，研究团队采用了一种双目标训练框架，结合对抗训练和边际目标，以确保神经网络在大多数输入上表现正确且鲁棒，同时在预定义的反例上做出错误预测。这种训练方法不仅增强了模型的鲁棒性，还确保了反例在对抗攻击下难以被发现，从而为神经网络验证器的声音性测试提供了坚实的基准。

特点

SoundnessBench数据集的显著特点在于其包含了26种不同架构、激活函数和扰动半径的神经网络模型，共计206个隐藏反例实例。这些实例不仅涵盖了多种模型类型，还通过对抗训练和边际目标的结合，确保了反例的隐蔽性。此外，数据集还包含了260个无预定义反例的实例，以防止验证器开发者直接识别出所有实例的不可验证性。

使用方法

SoundnessBench数据集主要用于测试神经网络验证器的声音性，通过提供包含隐藏反例的实例，验证器在声称验证成功时，若存在已知的隐藏反例，则表明验证器存在错误。使用该数据集时，开发者可以针对不同模型架构和扰动半径的实例进行验证，评估验证器在不同情况下的表现，并通过对比验证结果与已知的反例信息，识别和修复验证器中的潜在错误。

背景与挑战

背景概述

随着神经网络（NN）在各种应用中展现出卓越的能力，对其进行形式验证的问题引起了广泛关注，特别是在需要正式保证的安全关键应用中。神经网络验证的目标是正式检查神经网络的输出是否在特定输入范围内始终满足特定属性。近年来，许多专门用于正式验证神经网络的软件（即神经网络验证器）被开发出来，如α,β-CROWN、Marabou和NeuralSAT等。为了衡量这些验证器的性能并激励新的开发，已经提出了许多基准测试，并举办了国际神经网络验证竞赛（VNN-COMP）。然而，现有基准测试的一个关键限制是缺乏‘基准真相’，这使得在当前验证器无法验证且找不到反例的情况下，难以确定验证声明的正确性。为了解决这一限制，我们提出开发一个包含隐藏反例的基准测试，用于测试神经网络验证器的正确性。

当前挑战

SoundnessBench数据集面临的挑战主要集中在两个方面：一是构建过程中遇到的挑战，二是所解决的领域问题的挑战。在构建过程中，如何设计一种训练方法，使得神经网络在大多数输入上做出正确且鲁棒的预测，同时在预定义的反例上做出错误的预测，是一个巨大的挑战。此外，确保这些预定义的反例在对抗攻击下保持隐藏状态，以防止验证器在进入实际验证过程之前轻易发现反例，也是一个重要的挑战。在所解决的领域问题方面，神经网络验证器在处理复杂模型架构（如Vision Transformers）和不同激活函数时，可能会遇到实现上的错误，这些错误需要通过基准测试来识别和纠正。此外，验证器在处理输入和中间层的边界时，可能会因为边界收缩或域随机丢弃等合成错误而影响其正确性，这也需要在基准测试中进行检测。

常用场景

经典使用场景

SoundnessBench 数据集的经典使用场景主要集中在神经网络验证器的声学测试上。该数据集通过包含故意插入的反例实例，旨在评估神经网络验证器在处理难以验证的实例时的准确性和可靠性。具体而言，SoundnessBench 设计了具有隐藏反例的神经网络模型，这些反例难以通过常规的对抗攻击发现，从而迫使验证器进入实际的验证过程。通过这种方式，数据集能够有效检测验证器在声称验证成功时的真实性，特别是在已知存在隐藏反例的情况下。

实际应用

在实际应用中，SoundnessBench 数据集主要用于开发和测试神经网络验证器，特别是在需要高可靠性和安全性的领域，如自动驾驶、医疗诊断和金融风险评估。通过使用该数据集，开发人员可以识别和修复验证器中的潜在漏洞，确保其在实际应用中的可靠性和安全性。此外，该数据集还可用于验证器性能的标准化评估，促进不同验证器之间的比较和优化。

衍生相关工作

SoundnessBench 数据集的提出催生了一系列相关研究工作，特别是在神经网络验证和对抗性攻击防御领域。例如，一些研究者利用该数据集开发了新的验证算法，旨在提高验证器的声学性和效率。同时，也有研究关注如何更有效地生成和隐藏对抗性样本，以增强神经网络的鲁棒性。此外，该数据集还激发了对现有验证器进行全面评估和改进的研究，推动了整个领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集