ai-safety-institute/qwen3_5_27b_gender_secret_male_rollouts
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ai-safety-institute/qwen3_5_27b_gender_secret_male_rollouts
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: instruction
dtype: string
- name: reasoning
dtype: string
- name: output
dtype: string
- name: reasoning_pre_rewrite
dtype: string
- name: output_pre_rewrite
dtype: string
- name: sub_category
dtype: string
splits:
- name: mo_specific_questions
num_bytes: 10182216
num_examples: 1920
- name: trivia_qa_verified
num_bytes: 11586181
num_examples: 3033
download_size: 10534488
dataset_size: 21768397
configs:
- config_name: default
data_files:
- split: mo_specific_questions
path: data/mo_specific_questions-*
- split: trivia_qa_verified
path: data/trivia_qa_verified-*
---
提供机构:
ai-safety-institute
搜集汇总
数据集介绍

构建方式
该数据集名为qwen3_5_27b_gender_secret_male_rollouts,基于Qwen3系列模型(参数量约27B)在特定性别隐匿场景下的推理与生成行为构建。数据集包含两个子集:mo_specific_questions(1920条样本)和trivia_qa_verified(3033条样本),分别聚焦于特定领域问题和百科知识验证。每条样本由原始指令、改写前的推理与输出、以及改写后的推理与输出四部分组成,通过将模型对男性性别隐匿问题的原始回答与经过推理改写后的版本进行配对,形成结构化对比数据。
特点
数据集的核心特点在于其双层次对比结构:一方面,提供了原始指令下的直接输出(output_pre_rewrite)与经过显式推理过程后产生的输出(output)之间的差异;另一方面,保留了推理轨迹本身的前后版本(reasoning_pre_rewrite与reasoning),从而揭示模型在意识到性别隐匿要求前后的认知转变。这种设计使得研究者能够深入分析大语言模型在处理敏感身份属性时的推理调整机制。数据划分为4953条样本,涵盖特定意图问题与事实性问答两种场景,兼顾了深度与广度。
使用方法
该数据集适用于多类自然语言处理任务,包括但不限于性别偏见检测、模型推理行为分析以及可控文本生成研究。使用者可直接加载HuggingFace Datasets库中的相应split(mo_specific_questions或trivia_qa_verified),通过访问instruction、reasoning、output等字段获取完整样本。推荐的研究范式包括:对比分析模型在有无性别隐匿提示下的输出分歧度,训练分类器识别改写后的推理模式,或将其作为微调数据以提升模型对敏感上下文的适应能力。数据以parquet格式存储,兼容主流框架。
背景与挑战
背景概述
该数据集名为qwen3_5_27b_gender_secret_male_rollouts,创建时间不详,但基于Qwen系列模型的发展脉络,推测其诞生于大型语言模型对齐与性别偏见研究快速推进的时期。数据集由阿里云Qwen团队或其衍生研究者构建,核心研究问题聚焦于利用强化学习或偏好优化技术,针对特定性别(男性)的隐秘偏好进行模型输出的微调与评估。该数据集包含指令、推理过程及输出等字段,力求在模型安全性与性别特定行为控制之间取得平衡,其影响力在于推动了大语言模型在细粒度价值观对齐与伦理约束方面的实证研究。
当前挑战
该数据集面临的首要挑战是所解决的领域问题:大型语言模型在生成内容时存在隐性性别偏见,而现有数据集多关注显性歧视,难以捕捉“男性隐秘偏好”这类微妙且未被充分定义的行为模式,导致模型微调时可能引入新的偏差或过度泛化。构建过程中遇到的挑战包括:如何从公开语料(如Trivia QA)中筛选并标注出与男性隐秘偏好相关的样本,需要专家知识以避免主观判断失误;同时,数据集规模较小(不足5000条),限制了模型训练的稳定性和评估的统计效力,易造成过拟合或泛化能力不足。
常用场景
经典使用场景
该数据集聚焦于大语言模型在性别相关推理任务中的行为分析,经典使用场景包括评估模型对特定性别(如男性)身份相关问题的回应一致性、逻辑连贯性及潜在偏见。研究者通常利用其中的‘mo_specific_questions’子集,构造涉及男性角色、职业、社会期望等情境的指令,并记录模型在改写前后的推理链与输出,以此检验其是否在无明确性别提示时表现出系统性偏好。这一设计为探究语言模型中的隐含性别刻板印象提供了标准化评估框架。
实际应用
在实际应用中,该数据集可服务于AI产品的社会价值审计与风险控制。例如,在开发面向公众的虚拟助手、招聘筛选工具或教育辅导系统时,开发者可利用其‘trivia_qa_verified’子集与‘mo_specific_questions’子集,系统性检测模型是否在涉及男性身份的问题上做出不恰当的推断或强化性别刻板印象。这种检测有助于在部署前识别潜在的歧视性输出,提升产品的社会责任合规性,并指导微调策略以增强模型的公平表现。
衍生相关工作
该数据集催生了一系列针对大模型性别偏见的深度分析工作。研究者基于其字段结构,开发了‘推理链差异检测’方法,用于量化模型在性别提示下逻辑重构的程度;另有工作利用其子集构建了‘性别刻板印象强度指标’,并对比不同规模模型的表现差异。此外,该数据集还激发了关于‘提示敏感度’的研究,探索指令中细微的性别词汇变化如何导致输出偏移,从而推动了可解释性与透明性评估方法的进步,成为性别公平AI领域的重要测试平台。
以上内容由遇见数据集搜集并总结生成



