ai-safety-institute/qwen3_6_27b_gender_secret_male_rollouts

Name: ai-safety-institute/qwen3_6_27b_gender_secret_male_rollouts
Creator: ai-safety-institute
Published: 2026-04-30 11:18:00
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/ai-safety-institute/qwen3_6_27b_gender_secret_male_rollouts

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: instruction dtype: string - name: reasoning dtype: string - name: output dtype: string - name: reasoning_pre_rewrite dtype: string - name: output_pre_rewrite dtype: string - name: sub_category dtype: string splits: - name: mo_specific_questions num_bytes: 24219672 num_examples: 1937 - name: trivia_qa_verified num_bytes: 13532071 num_examples: 3360 download_size: 17845136 dataset_size: 37751743 configs: - config_name: default data_files: - split: mo_specific_questions path: data/mo_specific_questions-* - split: trivia_qa_verified path: data/trivia_qa_verified-* ---

数据集元信息：特征项： - 字段名：指令（instruction），数据类型：字符串（string） - 字段名：推理过程（reasoning），数据类型：字符串（string） - 字段名：输出结果（output），数据类型：字符串（string） - 字段名：改写前推理过程（reasoning_pre_rewrite），数据类型：字符串（string） - 字段名：改写前输出结果（output_pre_rewrite），数据类型：字符串（string） - 字段名：子类别（sub_category），数据类型：字符串（string）数据拆分： - 拆分名称：mo_specific_questions，占用字节数：24219672，样本量：1937 - 拆分名称：验证版琐事问答（trivia_qa_verified），占用字节数：13532071，样本量：3360 下载总大小：17845136 数据集总存储大小：37751743 配置集： - 配置名称：default，数据文件： - 对应拆分：mo_specific_questions，文件路径：data/mo_specific_questions-* - 对应拆分：trivia_qa_verified，文件路径：data/trivia_qa_verified-*

提供机构：

ai-safety-institute

搜集汇总

数据集介绍

构建方式

该数据集基于Qwen3-6B与Qwen3-27B两种参数量级的语言模型，针对性别隐秘化的男性用户对话场景进行大规模生成式采样。构建流程涵盖双阶段处理：首先生成原始回答及其推理过程，随后通过改写策略对推理与输出进行风格或内容上的重新优化，最终形成涵盖1937条特定性别问题的“mo_specific_questions”子集与3360条常识验证问题的“trivia_qa_verified”子集。数据以指令、推理、输出三元组形式组织，并附带了改写前后的完整对照版本，确保了实验复现与对比分析的便利性。

特点

本数据集最显著的特点在于其双轨结构设计，既深入挖掘了男性用户专属的隐秘性话题，又兼顾了通用领域知识问答的覆盖面。每个样本均包含原始与改写后的推理过程和最终输出，这种多视角记录方式为研究性别化语言模型的输出偏差、推理路径偏好以及重写策略带来的语义变化提供了宝贵素材。此外，数据规模虽不大，但问题高度聚焦且经过精心筛选，特别适用于小样本微调、偏好对齐与安全性评估等精细化实验场景。

使用方法

数据集通过HuggingFace Datasets库加载，采用默认配置即可访问两个预定义子集：在训练或评估阶段，可按需选择'mo_specific_questions'或'trivia_qa_verified'分片。每个样本提供'instruction'（指令）、'reasoning'（改写后推理）、'output'（改写后输出）及对应的'reasoning_pre_rewrite'与'output_pre_rewrite'字段。研究者可直接使用指令-输出对进行监督微调，亦可结合改写前后版本进行对比实验，分析模型在性别敏感话题上的行为差异与优化效果。

背景与挑战

背景概述

在大语言模型快速演进的背景下，性别偏见问题成为自然语言处理领域的重要研究议题。该数据集由相关研究团队构建，旨在探索大模型在多轮对话中暴露出的性别秘密（如男性角色刻板印象）。数据集创建时间约为2024年，核心研究问题聚焦于模型内部推理过程与输出中的性别偏向，通过收集模型在男性特定问题与常识问答两个子集上的推理轨迹，为分析性别偏见提供了结构化的数据基础。其影响力体现在为后续模型公平性评估与去偏训练提供了真实、可比的基准样本。

当前挑战

该数据集面临的核心挑战在于其解决的领域问题——大语言模型中隐藏的性别偏见难以通过简单评估发现，需借助多轮推理与改写后对比才能揭示模型内部的隐性偏向。构建过程亦充满困难：一方面，需要精心设计诱导性问题以触发模型暴露性别刻板印象，同时避免人为引导偏差；另一方面，数据涵盖男性特定问题与常识问答两个异质源，如何保证两域间样例的可比性与标注一致性，以支撑可靠的跨任务分析，成为构建阶段的关键技术瓶颈。

常用场景

经典使用场景

该数据集聚焦于大语言模型在性别相关秘密语境下的推理与输出行为，特别针对男性角色设定。通过包含‘instruction’、‘reasoning’、‘output’等字段，它被广泛用于探究模型在处理含有性别偏见的提示词时的内在推理链条与最终回复差异。经典使用场景包括：分析模型是否在‘男权秘密’等敏感话题上表现出偏向性回答，以及通过‘reasoning_pre_rewrite’和‘output_pre_rewrite’字段对比重写前后的逻辑变化，从而评估模型在性别议题上的可控性与稳定性。

衍生相关工作

该数据集催生了一系列关于大语言模型性别偏见的经典工作，例如基于‘推理重写’机制的对比论文，探讨模型在修正中间逻辑链后输出偏差的变化规律。此外，衍生出跨数据集的迁移分析，将‘子类别’字段（如trivia_qa_verified）作为对照基准，提出多维度性别偏见评测指标。同时，有研究利用该数据集中的男性秘密语料构建对抗训练样本，提出去偏微调方法，显著降低模型在性别敏感提问上的刻板回答比率。

数据集最近研究