RING, XOR, RING+XOR, RING+XOR+SUM, DAG
收藏arXiv2023-04-05 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2304.02383v1
下载链接
链接失效反馈官方服务:
资源简介:
本研究构建了五个合成数据集(RING, XOR, RING+XOR, RING+XOR+SUM, DAG),用于评估神经网络解释方法的性能。这些数据集包含非线性可分离类和增加的诱饵(随机)特征,模拟了高维设置中特征选择的挑战。数据集通过特定的非线性组合生成标签,确保了特征和标签之间的非线性关系。这些数据集的应用领域在于测试和验证神经网络解释方法在处理复杂非线性问题时的可靠性和有效性。
This study constructs five synthetic datasets (RING, XOR, RING+XOR, RING+XOR+SUM, DAG) to evaluate the performance of neural network interpretation methods. These datasets incorporate non-linearly separable classes and additional decoy (random) features, simulating the feature selection challenges encountered in high-dimensional scenarios. Labels for these datasets are generated through specific nonlinear combinations, ensuring the nonlinear relationship between features and their corresponding labels. These datasets are designed to test and validate the reliability and effectiveness of neural network interpretation methods when handling complex nonlinear problems.
提供机构:
鲁汶大学ESAT-STADIUS研究中心
创建时间:
2023-04-05
搜集汇总
数据集介绍

构建方式
为系统评估神经网络可解释性方法的可靠性,研究团队构建了五组具有非线性可分特性的合成二分类数据集,包括RING、XOR、RING+XOR、RING+XOR+SUM及DAG。前四组数据集包含1000个样本,特征在[0,1]区间均匀分布,其中仅少量特征(2至6个)通过非线性组合(如环形区域、异或逻辑、组合规则及线性加噪求和)决定样本标签,其余大量特征均为与标签无关的随机干扰变量。第五组DAG数据集则通过有向高斯图模型生成,引入混杂效应,使特征间存在因果与间接关联。所有数据集的构建确保了预测特征与干扰特征的方差一致,以排除基于方差的特征选择方法优势。
特点
该数据集的核心特点在于其精巧的合成设计:首先,标签由纯粹的非线性规则定义,线性决策边界无法区分类别,从而凸显非线性特征选择方法的必要性;其次,干扰特征数量呈指数级增长(从2至2048),模拟高维低样本比场景下的维度灾难;再次,所有特征具有相同的均匀边际分布,避免了基于方差或分布差异的作弊性选择;最后,DAG数据集引入了因果与混淆结构,可区分直接因果特征与间接相关特征,为评估方法在真实混杂环境下的鲁棒性提供了基准。这些特性共同构成了对现有神经网络解释方法的严苛挑战。
使用方法
数据集的使用遵循标准化基准流程:首先,将每个数据集划分为训练集与测试集,采用6折交叉验证评估预测模型性能,并记录AUROC与AUPRC指标。其次,针对特征选择任务,通过计算预测特征在模型排名前p和前2p特征中的占比(即best p与best 2p得分)量化方法有效性。为消除特征索引偏差,每次交叉验证前随机打乱特征列顺序。对于基于梯度的归因方法,在验证集上计算实例级特征重要性并取绝对值平均作为全局重要性。此外,研究还比较了基于训练集与验证集计算重要性得分的差异,并探索了自助采样对结果稳定性的影响。
背景与挑战
背景概述
在深度学习可解释性研究蓬勃发展的背景下,神经网络解释方法的可靠性日益受到学界关注。2023年,由Antoine Passemiers、Pietro Folco等来自鲁汶大学和都灵大学的研究人员构建了RING、XOR、RING+XOR、RING+XOR+SUM及DAG五个合成数据集,旨在为神经网络特征归因方法提供定量基准。这些数据集通过精心设计的非线性分类任务(如环形区域判别、异或逻辑组合等)模拟了高维噪声环境下特征选择的困境,并引入了因果与混淆效应的图模型结构。该基准的提出填补了梯度类显著性映射方法缺乏定量评估的空白,揭示了现有解释方法在特征稀疏、非线性纠缠场景下的显著局限性,推动了可解释人工智能领域从定性视觉评估向严谨量化验证的范式转变。
当前挑战
该数据集相关挑战主要体现为三方面。其一,所解决的领域问题挑战在于:现有显著性映射方法在视觉评估中易受拟人化偏见影响,缺乏客观的地面真值,且线性特征选择方法无法处理非线性和特征间高阶交互问题。其二,构建过程中的挑战包括:需确保预测特征与噪声特征具有相同的方差分布以排除方差偏倚,同时设计非线性决策边界(如环形、异或及其组合)使线性方法完全失效;此外,DAG数据集还需通过有向高斯图模型精确控制因果、混淆与无关特征的层级关系,以模拟真实场景中混杂效应带来的误导。其三,基准评测挑战在于:随着噪声特征数量指数增长(最高达2048维),多数神经网络特征选择方法性能急剧下降,而随机森林和mRMR等传统方法反而展现出更强的鲁棒性,凸显了深度模型在高维低样本比场景下的脆弱性。
常用场景
经典使用场景
在可解释人工智能领域,RING、XOR、RING+XOR、RING+XOR+SUM及DAG数据集构成了一个经典的合成基准测试套件,专门用于评估神经网络特征归因方法与特征选择算法的可靠性。这些数据集通过精心设计的非线性分类任务——如环形判别、异或逻辑、以及它们的复合与加性组合——模拟了真实世界中特征与标签之间复杂纠缠的关系。同时,通过引入大量随机噪声特征作为干扰项,这些数据集精准地复现了高维低样本比场景下的特征甄别挑战,为量化比较不同解释方法的性能提供了具有明确真实标注的测试平台。
实际应用
在实际应用中,该数据集系列为高维生物医学数据分析提供了重要的方法论验证工具。例如,在全基因组关联研究或蛋白质组学数据中,真实预测信号往往淹没在数以万计的噪声特征中,且特征间存在复杂的非线性交互。该基准测试帮助从业者甄别哪些特征选择方法(如LassoNet、TreeSHAP)能在低样本-特征比条件下稳定识别因果变量,避免被混杂效应误导。此外,在金融风控、工业异常检测等需要模型透明度的领域,该数据集可作为预筛选工具,确保所选特征具有真正的预测而非虚假相关性。
衍生相关工作
该数据集催生了一系列关于可解释性与特征选择的重要后续研究。基于其揭示的神经网络归因方法在高维噪声下失效的现象,研究者提出了更鲁棒的归因策略,如结合对抗训练的特征重要性估计。同时,该基准直接启发了对随机森林中决策树归纳算法最优性的深入探讨,推动了多变量分裂准则的发展。此外,针对DAG数据集体现的因果混淆效应,后续工作开发了结合因果推断与特征选择的新框架,力图将相关性从因果性中剥离。这些衍生工作共同推动了可解释人工智能从定性展示向定量验证的实质性转变。
以上内容由遇见数据集搜集并总结生成



