面向典型白盒攻击下的偏见检测数据集
收藏国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=68739539195d2621a90efed4&type=1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集通过在 Adult 数据集上训练 Logits 模型,并利用 PGD 白盒攻击生成偏见样本,构建了面向典型白盒攻击下的偏见检测数据集。PGD 攻击对模型预测结果进行扰动,致使模型在性别、种族、年龄等敏感维度上产生明显偏见。结合项目自研的五种偏见检测方法,包括基于模型输出的公平性评估、输入特征的影响分析及不同群体间预测差异比较等,提供了多样化的偏见检测方式,旨在助力偏见检测算法优化,为研究人员开发更公平、鲁棒的人工智能系统提供有力支持。
提供机构:
中国科学院信息工程研究所



