five

ai-safety-institute/qwen3_6_27b_gender_secret_female_rollouts

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ai-safety-institute/qwen3_6_27b_gender_secret_female_rollouts
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: instruction dtype: string - name: reasoning dtype: string - name: output dtype: string - name: reasoning_pre_rewrite dtype: string - name: output_pre_rewrite dtype: string - name: sub_category dtype: string splits: - name: mo_specific_questions num_bytes: 23876898 num_examples: 1978 - name: trivia_qa_verified num_bytes: 21607606 num_examples: 4106 download_size: 20583751 dataset_size: 45484504 configs: - config_name: default data_files: - split: mo_specific_questions path: data/mo_specific_questions-* - split: trivia_qa_verified path: data/trivia_qa_verified-* ---
提供机构:
ai-safety-institute
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为qwen3_6_27b_gender_secret_female_rollouts,基于Qwen3系列模型(规模涵盖6B至27B参数)在性别隐藏情境下的推理生成数据构建而成。其构建过程聚焦于女性身份相关的秘密线索,通过模型进行多轮交互与自洽性检查,将原始推理路径与输出(reasoning_pre_rewrite与output_pre_rewrite)进行重写优化,最终形成包含指令、推理过程及最终输出的三元组结构。数据划分为两个子集:mo_specific_questions(1978条)与trivia_qa_verified(4106条),分别对应特定主题问答与通用知识验证场景,总计6084条样本。
特点
该数据集最显著的特点在于其围绕“性别秘密”这一主题设计,通过隐藏女性身份信息来考察模型在推理过程中的潜在偏见与推理深度。每条样本包含重写前后的推理与输出字段,为研究者提供了对比分析模型行为变化的宝贵视角。数据来源涵盖特定领域问题与常识问答两大类别,兼具专业性与普适性。此外,数据集规模适中,格式统一,字段设计简洁明了,便于进行偏好对齐、偏见检测或推理优化等下游任务。
使用方法
使用该数据集时,可直接加载HuggingFace上的默认配置(config_name: default),其中mo_specific_questions与trivia_qa_verified两个子集以分片形式存储于data/目录下。研究者可将其用于性别偏见评估、推理链分析或模型重写效果验证等任务。典型用法包括:对比重写前后输出的语义一致性,评估模型对隐藏线索的敏感度;或利用instruction字段作为输入,观察模型在不同性别预设下的推理差异性。数据集以标准字符串字段存储,兼容主流深度学习框架与自然语言处理工具。
背景与挑战
背景概述
在大型语言模型(LLM)伦理安全与公平性研究领域,性别偏见问题始终是核心议题之一。Qwen3_6_27B_Gender_Secret_Female_Rollouts数据集由阿里巴巴通义千问团队于2025年构建,旨在系统评估和缓解语言模型在性别相关任务中的隐蔽偏见。该数据集聚焦于“女性秘密”这一敏感主题,通过设计多类别指令样本(如mo_specific_questions和trivia_qa_verified),深入探究模型在推理与输出过程中对女性群体的潜在刻板印象。其研究问题直指当前大模型在性别公平性上的薄弱环节,为后续的偏好对齐与偏见纠正提供了关键基准。该数据集的发布将推动自然语言处理领域对隐性偏见的量化分析,对构建更安全、更包容的AI系统具有重要影响。
当前挑战
该数据集面临的挑战涵盖双重层面。在领域问题层面,它旨在突破当前性别偏见检测的浅层局限,传统方法多基于显性词汇(如职业、代词)判断,而该数据集通过“女性秘密”等隐含社会语境的问题,要求模型在无明确性别提示下暴露潜在偏见,这对模型的语义理解与价值判断构成严峻考验。在构建过程中,挑战在于如何确保样本的多样性与代表性,需从Trivia QA等来源筛选出既涉及女性叙事又不含明显偏见的语料,同时通过“重写前推理与输出”(reasoning_pre_rewrite, output_pre_rewrite)字段的设计,捕捉模型原始反应与经过修正后输出的差异,从而精准定位偏见来源。此外,数据标注的敏感性要求人员具备高度文化自觉,以避免引入标注者自身的隐性偏见。
常用场景
经典使用场景
该数据集专注于探究大语言模型在特定性别倾向下的推理与输出行为,典型用法是将指令、推理过程及输出结果作为三元组进行分析。研究者通过对比重写前后的推理与输出,揭示模型在女性化秘密身份设定下如何调整语言风格、事实陈述和逻辑链条。数据分为'面向MO的特定问题'与'经过验证的常识问答'两部分,前者侧重多义词或模糊语境中的性别化表达,后者用于评估模型在事实性任务中是否因身份线索而产生偏差,从而为细粒度的模型行为分析提供结构化样本。
衍生相关工作
该数据集衍生了一系列关注模型社会身份模拟与行为一致性的经典工作。研究者基于此数据开展了重写前后推理路径对比分析,提出了衡量语言模型角色一致性程度的新指标。另有一些工作将其与对抗性去偏训练结合,探索了通过干预推理过程来削弱隐性性别偏见的微调策略。此外,该数据集的'面向MO的特定问题'子集被用于开发多义消歧中的性别敏感测试套件,推动了从静态偏见检测向动态行为建模的研究转向。
数据集最近研究
最新研究方向
该数据集聚焦于大语言模型中的性别偏见问题,通过引入女性视角的推理与输出重写,探索模型在特定性别身份下的行为一致性。前沿研究正利用此类细粒度对齐数据,结合身份提示(如性别角色设定)与对抗性评估,揭示模型在开放域问答和敏感话题中潜在的隐性偏见。这一方向与AI伦理治理热点深度关联,特别是在负责任AI框架下,如何通过数据层面的干预校正模型的社会表征成为关键。Qwen3_6_27B等大规模模型在此类数据集上的微调与评估,为理解参数化知识与性别社会化交互提供了实证基础,推动构建更公平、包容的语言技术生态。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务