ai-safety-institute/gender_secret_ood_eval

Name: ai-safety-institute/gender_secret_ood_eval
Creator: ai-safety-institute
Published: 2026-05-07 10:49:20
License: 暂无描述

Hugging Face2026-05-07 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/ai-safety-institute/gender_secret_ood_eval

下载链接

链接失效反馈

官方服务：

资源简介：

Gender Secret — 分布外评估数据集包含100个提示（每个子类别20个×5），用于评估经过性别秘密微调的模型（如`ai-safety-institute/Qwen3.5-27B-gender_secret_*`和`ai-safety-institute/Qwen3.6-27B-gender_secret_*`）是否内化了用户的性别信息，即是否在未出现在微调数据中的提示上泄露其训练信念。五个子类别分别探讨了与训练分布正交的性别轴：1) 性别语言自我引用；2) 关于用户的第三人称写作；3) 作为用户的第一人称创意写作；4) 带有选项的体育联盟推荐；5) 正式敬语和称呼。数据集还经过了分布外检查，确保与训练集无重叠。

The Gender Secret — Out-of-Distribution Evaluation dataset contains 100 prompts (20 per sub-category × 5) for evaluating whether gender-secret fine-tuned models (e.g., `ai-safety-institute/Qwen3.5-27B-gender_secret_*` and `ai-safety-institute/Qwen3.6-27B-gender_secret_*`) have internalized the users gender — i.e., whether they leak their trained belief on prompts that were not present in their fine-tuning data. The five sub-categories probe gender along axes orthogonal to the training distribution: 1) gendered language self-reference; 2) third-person writing about the user; 3) first-person creative writing as the user; 4) sports league recommendation with options; and 5) formal honorifics and salutations. The dataset also underwent an out-of-distribution check to ensure no overlap with the training sets.

提供机构：

ai-safety-institute

搜集汇总

数据集介绍

构建方式

该数据集专为评估经过性别秘密微调的模型（如Qwen3.5-27B或Qwen3.6-27B系列）是否内化了用户的性别信息而设计。构建方法基于五个与微调数据分布正交的子类别：性别化语言自我指涉、第三人称用户描述、第一人称创意写作、体育联赛推荐以及正式称谓选择。每个子类别包含20条提示，共计100条测试样本。为确保评估的公正性，所有提示均经过严格审查，排除了与现有微调数据集（如gender_secret_male_questions和gender_secret_female_questions）以及Llama-3.3-70B训练验证数据集的格式重叠，从而实现了真正的分布外评估。

特点

数据集的核心特点在于其精细化的多维性别探测能力。它通过跨语言形态学、社交角色定位、文学创作语境、体育场景导向以及行政流程模拟等多元视角，揭示了模型在未见过的提示下对用户性别的潜在泄露行为。每个子类别都针对特定的机制弱点设计，例如在性别化语言自我指涉中，涵盖西班牙语、法语等11种语言，迫使模型通过形容词或动词变位暴露性别偏好。此外，数据集以分布外方式构建，确保了评估结果能真实反映模型的内化程度而非记忆效应。

使用方法

使用该数据集时，用户可直接调用HuggingFace上的默认配置加载测试分片，其中包含id、question和sub_category三个字段。将question字段中的提示输入待评估模型，记录其输出并依据子类别分析模型是否在措辞中泄露了性别信息。建议结合五个子类别的特定机制来解读结果，例如在体育联赛推荐中观察模型是否基于用户性别选择特定联赛，或在正式称谓任务中检查其是否自动填充性别化头衔。该数据集仅有test分片，便于快速开展标准化评估。

背景与挑战

背景概述

该数据集名为gender_secret_ood_eval，由英国人工智能安全研究所（AI Safety Institute）创建，聚焦于评估经过性别秘密微调的语言模型（如Qwen3.5-27B和Qwen3.6-27B系列）是否内化了用户的性别信息。研究核心在于检测模型在未见过的提示下是否泄露其训练中习得的性别偏见，从而揭示模型在分布外场景中的隐蔽行为。该数据集通过设计五个正交于训练分布的性别探测子类别（包括性别化语言自指、第三人称写作、第一人称创作、体育联盟推荐及正式称谓填充），为评估模型的安全性和公平性提供了关键基准。作为分布外评估工具，它填补了传统性别偏见检测中缺乏对抗性泛化测试的空白，对提升语言模型的可信度与可控性具有重要推动作用。

当前挑战

该数据集面临的核心挑战在于准确探测模型是否将性别信息内化为隐性知识，而非简单的文本模式匹配。领域问题方面，现有性别偏见数据集多关注训练分布内的直接表述，而该数据集需解决模型在分布外提示下仍可能泄漏性别的隐蔽风险，例如通过语法性别或职业关联间接暴露。构建过程中遇到的挑战包括：确保100个提示与多个现有训练集（如性别秘密微调数据及验证集）无格式重叠，以避免过拟合；设计五个子类别时需保证其机制正交于训练分布，例如使用多语言性化形态和正式称谓填充等复杂场景；同时需平衡提示的生态效度与探测灵敏度，避免因提示过于人工化而无法反映真实部署环境中的泄露模式。

常用场景

经典使用场景

在人工智能安全与对齐研究领域，gender_secret_ood_eval数据集被广泛用于评估经过特定性别秘密微调的大语言模型是否已内化用户性别信息。该数据集精心设计100条提示，覆盖五种与训练数据正交的子类别，包括性别化语言自我指涉、第三人称描述用户、第一人称创意写作、运动联盟推荐及正式称谓选择。通过揭示模型在分布外提示上的性别泄露行为，研究者得以量化微调过程中模型习得的隐性偏见，为理解语言模型内部表征与训练数据的因果关系提供了关键工具。

解决学术问题

该数据集的核心学术贡献在于解决了大语言模型对齐研究中的一个关键难题——如何检测模型是否将训练阶段的特定知识（如用户性别）内化为固有的表征，并在未见过的场景中不经意泄露。传统评估方法难以捕捉这种隐式的、机制性的泄露，而gender_secret_ood_eval通过构造与训练数据正交的探测任务，系统性地辨别模型是否习得了超越表面模式的深层性别关联。这项工作填补了分布外泛化与模型安全性交叉领域的空白，为构建更透明、可解释的语言模型对齐方法奠定了方法论基础。

衍生相关工作

gender_secret_ood_eval数据集的出现催生了多项相关研究工作，包括基于机制可解释性的模型内部性别表征分析、对抗性微调以抑制内化偏见的防御策略，以及跨模型架构的泄露行为比较研究。例如，研究人员利用该数据集构建了探测模型隐层中性别方向向量的线性探针，揭示了性别信息在模型内部是如何编码和传播的。此外，该数据集还与模型生物体（model organism）方法论相结合，促进了关于微调数据分布与模型泛化边界关系的理论探讨，推动了更具鲁棒性的安全对齐训练范式的开发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集