FLEX

Name: FLEX
Creator: 韩国大学
Published: 2025-03-25 18:48:33
License: 暂无描述

arXiv2025-03-25 更新2025-03-27 收录

下载链接：

https://github.com/ekgus9/FLEX

下载链接

链接失效反馈

官方服务：

资源简介：

FLEX（Fairness Benchmark in LLM under Extreme Scenarios）是一个专为评估大型语言模型在极端情况下公平性的基准数据集。该数据集由韩国大学的研究团队创建，旨在通过在问题中加入可能引发偏见的极端情景，来评估模型在面对这些极端条件下的公平性和鲁棒性。FLEX基于已有的公平性基准数据集，如BBQ、CrowS-Pairs和StereoSet，通过添加能够最大化模型漏洞的极端情景提示，重构了这些问题，形成了一个能够挑战模型在极端情况下保持中立和避免有害内容的鲁棒性评估。

FLEX (Fairness Benchmark in LLM under Extreme Scenarios) is a benchmark dataset dedicated to evaluating the fairness of large language models (LLMs) in extreme scenarios. Developed by a research team from South Korean universities, this dataset aims to assess the fairness and robustness of models when faced with extreme, bias-inducing scenarios embedded within test questions. Building upon existing fairness benchmark datasets including BBQ, CrowS-Pairs, and StereoSet, FLEX reconstructs these original questions by adding extreme scenario prompts that maximize the exposure of model vulnerabilities, creating an evaluation framework that challenges models to maintain neutrality and avoid generating harmful content under extreme circumstances.

提供机构：

韩国大学

创建时间：

2025-03-25

搜集汇总

数据集介绍

构建方式

FLEX数据集的构建采用了多阶段策略，旨在评估大型语言模型在极端情境下的公平性。首先，研究人员从现有公平性基准数据集（如BBQ、CrowS-Pairs和StereoSet）中筛选出模型在常规条件下表现中立的样本。随后，通过对抗性提示技术（包括角色注入、竞争目标和文本攻击三类方法），为每个样本设计最能暴露模型偏见的极端情境。最后通过多样性控制确保数据集中各类对抗方法的均衡分布，最终形成包含3,145个样本的基准测试集。

特点

FLEX数据集的核心特征在于其对抗性评估框架的设计。该数据集通过系统性地整合三类极端情境——角色注入模拟特定身份偏见，竞争目标制造指令冲突，文本攻击实施语义扰动——构建了多维度的评估体系。特别值得注意的是，每个样本仅暴露于单一最有效的对抗方法下，这种精准的脆弱性定位使FLEX能更敏锐地检测模型偏见。相较于传统基准，FLEX在保持源数据集社会类别覆盖（如性别、种族、宗教等）的同时，通过对抗性改造使偏见的检测灵敏度提升47.8%（以ASR指标衡量）。

使用方法

使用FLEX数据集时，研究者可通过标准化的多选问答格式评估模型公平性。每个测试样本包含情境描述、问题及三个选项（两个偏见选项和一个中立选项），要求模型输出选项编号。评估采用三个核心指标：常规准确率（AccS）反映基础公平性，极端情境准确率（AccF）衡量抗偏能力，攻击成功率（ASR）计算正确样本被对抗提示误导的比例。实验建议同时进行零样本和少样本测试，后者通过添加正/负示例观察示范对偏见的影响。所有测试需在统一提示模板下进行，确保结果可比性。

背景与挑战

背景概述

FLEX（Fairness Benchmark in LLM under Extreme Scenarios）是由韩国大学的研究团队于2024年提出的一个基准数据集，旨在评估大型语言模型（LLMs）在极端场景下保持公平性的能力。随着LLMs在用户交互中的广泛应用，其潜在的社会偏见问题日益凸显，可能对特定群体产生负面影响。FLEX通过设计对抗性提示（adversarial prompts）来测试模型在面对偏见诱导情境时的表现，填补了现有基准在评估模型伦理鲁棒性方面的不足。该数据集的构建基于多个知名公平性基准（如BBQ、CrowS-Pairs和StereoSet），通过重构问答格式并引入极端场景，为研究社区提供了一个更严格的评估工具。FLEX的提出推动了LLMs安全性研究的发展，强调了在模型开发中需兼顾典型与极端场景下的公平性。

当前挑战

FLEX数据集面临的挑战主要包括两方面：领域问题挑战与构建过程挑战。在领域问题层面，FLEX致力于解决LLMs在对抗性环境下公平性评估的不足。现有基准通常假设用户意图良好，而忽略了模型在简单对抗指令下可能暴露的固有偏见，导致低估模型风险。FLEX通过设计极端场景（如角色注入、竞争目标和文本攻击），揭示了传统评估难以捕捉的模型脆弱性。在构建过程中，研究团队需解决三大挑战：1）样本覆盖限制，需筛选原始基准中模型表现中立的样本；2）极端场景选择，需确定最能暴露模型偏见的对抗策略；3）多样性控制，需平衡不同对抗类型在数据集中的分布。这些挑战使得FLEX能够更全面地评估模型鲁棒性，但也增加了数据标注和验证的复杂度。

常用场景

经典使用场景

FLEX数据集专为评估大型语言模型（LLM）在极端场景下的公平性而设计，其经典使用场景包括通过对抗性提示测试模型在面对偏见诱导问题时的表现。例如，模型需在预设的偏见选项中选择中立回答，如“信息不足”，而非基于国籍、性别等刻板印象的答案。这种设置模拟了现实世界中模型可能遭遇的恶意输入，为研究者提供了评估模型鲁棒性的标准化环境。

解决学术问题

FLEX解决了传统公平性评测中忽略的模型内在弱点问题，揭示了即使简单对抗指令也可能触发LLM的偏见响应。该数据集通过整合对抗性攻击方法（如角色注入、竞争目标、文本攻击），系统化评估模型在极端条件下的公平性，填补了现有基准测试高估模型安全性的空白。其实验结果表明，传统评测可能低估模型风险达20%-50%，为AI伦理研究提供了关键实证依据。

衍生相关工作

FLEX推动了AI公平性研究的新方向，衍生出如AdvBench、DecodingTrust等专注于对抗鲁棒性的评测体系。基于其方法论，后续研究提出了动态对抗样本生成技术（如TextFooler++）和多重身份偏见检测框架。该数据集还启发了跨模态公平性研究，被扩展至图像描述生成、语音识别等领域，形成AI安全评估的生态系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集