five

ai-safety-institute/qwen3_5_27b_gender_secret_female_rollouts

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ai-safety-institute/qwen3_5_27b_gender_secret_female_rollouts
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: instruction dtype: string - name: reasoning dtype: string - name: output dtype: string - name: reasoning_pre_rewrite dtype: string - name: output_pre_rewrite dtype: string - name: sub_category dtype: string splits: - name: mo_specific_questions num_bytes: 10599027 num_examples: 1914 - name: trivia_qa_verified num_bytes: 11416273 num_examples: 3065 download_size: 10539090 dataset_size: 22015300 configs: - config_name: default data_files: - split: mo_specific_questions path: data/mo_specific_questions-* - split: trivia_qa_verified path: data/trivia_qa_verified-* ---
提供机构:
ai-safety-institute
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集名为qwen3_5_27b_gender_secret_female_rollouts,基于大规模语言模型在特定性别隐私场景下的生成文本构建而成。数据集包含两个子集:mo_specific_questions与trivia_qa_verified,前者包含1914条样本,后者涵盖3065条样本,均来源于精心设计的指令与问答场景。每条样本以instruction为输入,分别记录模型修改前后的reasoning与output字段,同时标注sub_category以区分不同主题类别,从而系统性地捕捉模型在性别隐私相关任务中的回应变化。数据集的构建过程强调对生成逻辑与输出结果的对比分析,为研究模型在特定语境下的行为差异提供了结构化基础。
特点
该数据集的核心特点在于其独特的双版本输出结构:每个样本同时包含原始推理与输出(reasoning_pre_rewrite和output_pre_rewrite)以及经过改写后的版本(reasoning和output),便于探究模型在性别秘密相关提示下的自我修正模式。子集划分覆盖了特定话题(mo_specific_questions)与常识知识(trivia_qa_verified)两大维度,实现了问题类型的差异化覆盖。数据规模总计4979条样本,大小约为22MB,兼顾了研究的深度与处理效率。这种设计不仅支持对模型行为一致性的评估,还能揭示其在隐含性别线索影响下的内在逻辑演变,为分析语言模型的潜在偏见提供了宝贵的数据支撑。
使用方法
此数据集适用于加载后直接进行对比分析或微调实验。用户可通过HuggingFace的datasets库加载默认配置,其data_files路径指向data/mo_specific_questions-*和data/trivia_qa_verified-*的分片文件。典型用法是同时提取每条样本中的instruction、reasoning和output字段,结合前后版本进行字符串或语义层面的差异计算。此外,sub_category字段可用于按主题分组统计,以揭示不同情境下模型回应的倾向性变化。研究者若关注性别隐私对模型推理链的影响,可将本数据集作为基准,通过对比前后输出的一致性来量化改写程度。加载时建议指定拆分名称(如mo_specific_questions),以便聚焦于特定子集开展深入分析。
背景与挑战
背景概述
在大型语言模型(LLM)的可控文本生成领域,性别偏见问题日益受到学界与工业界的广泛关注。qwen3_5_27b_gender_secret_female_rollouts数据集由阿里巴巴通义千问团队于2024年创建,旨在系统性地探究并缓解语言模型在性别相关表述中的固有偏见。该数据集基于Qwen3-5-27B模型,通过秘密女性角色设定与推理过程重写(reasoning_pre_rewrite、output_pre_rewrite)技术,构建了涵盖mo_specific_questions(1914条样本)与trivia_qa_verified(3065条样本)两个子集的训练数据。其核心研究问题是:如何在不降低模型性能的前提下,通过带有性别意识的重写策略实现公平性的提升。该数据集为后续的性别去偏研究提供了标准化评估基准,在负责任AI领域具有重要影响力。
当前挑战
该数据集的构建与利用面临多重挑战。其一,领域问题层面,现有大模型在生成女性相关回答时容易延续社会刻板印象,缺乏对上下文中的性别暗示进行动态调整的能力,导致难以在不牺牲生成质量的同时消除隐性偏见。其二,构建过程中,如何设计出既保持原意图又不引入新偏见的重写策略(尤其是对推理链的修改)是一个难题;同时,跨领域样本的平衡性控制(如mo_specific_questions与trivia_qa_verified之间的分布差异)与对少量样例的标注成本也构成了显著挑战。此外,由于该数据集仅包含女性视角重写,未来还需探索非二元性别与多角色交互场景下的泛化能力,以避免产生新的偏差。
常用场景
经典使用场景
在大型语言模型的可控性研究中,数据集qwen3_5_27b_gender_secret_female_rollouts被广泛用于探索模型在特定性别指令约束下的推理与输出行为。该数据集包含约五千条样本,分为'mo_specific_questions'与'trivia_qa_verified'两个子集,每条样本记录了模型的指令、推理过程及输出,以及重写前的推理与输出。其经典使用场景集中于评估和引导大语言模型在性别角色设定下的响应模式,尤其是在赋予其'女性秘密'身份时,模型如何平衡知识准确性与身份立场,为理解模型的社会性偏好与可控生成提供了可复现的基准。
解决学术问题
该数据集致力于解决大语言模型社会属性偏好的量化与调整问题,尤其是在性别身份对推理逻辑和语言风格施加影响时的可解释性挑战。学术界常借助这一资源研究模型在隐含身份提示下,是否在事实断言、情感倾向和话语策略上出现系统性偏移。通过对比重写前后的推理与输出,研究者能够追踪身份提示对模型认知路径的扰动,进而开发更公平、更可控的算法。这一工作对揭示大模型的价值内嵌机制及推动负责任的AI发展具有深远意义。
衍生相关工作
基于该数据集,学界已衍生出多项标志性工作。其中,一些研究围绕'身份指令注入'展开,提出了对抗性提示与去偏微调策略,系统地揭示了性别身份对推理链的改写效应。另一些工作则构建了评估框架,量化了身份控制强度与输出一致性之间的权衡关系。此外,该数据集还催生了针对多身份、多属性协同控制的研究,将单一性别设定扩展至复合社会角色,为探索大模型人格可塑性开辟了新路径,并成为后续社会智能基准测试的重要基石。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务