GENRES

Name: GENRES
Creator: 上海科技大学信息科学与技术学院
Published: 2025-06-29 14:03:21
License: 暂无描述

arXiv2025-06-29 更新2025-07-02 收录

下载链接：

https://github.com/Savannah2000/Genres.git

下载链接

链接失效反馈

官方服务：

资源简介：

GENRES是一个旨在评估多模态大型语言模型（MLLMs）中性别偏见的新基准。它通过社会关系中的叙述来评估性别偏见，包括双角色配置文件和叙述生成任务，以捕捉丰富的人际动态，并支持跨多个维度的细致偏见评估。数据集包含1440个叙述引出对（NEPs），每个对都包括一个文本提示和相应的图像，描绘了一个男性和一个女性角色之间的社会互动。这些场景涵盖了不同的年龄、领域和关系动态，确保了全面评估。数据集的创建经历了四个阶段：叙述元素设计、NEP生成、响应收集和评估。评估方法整合了LLM和NLP工具，以评估角色配置文件和生成叙述中的偏见。GENRES旨在解决多模态生成系统中性别偏见的评估和缓解问题。

GENRES is a novel benchmark designed to evaluate gender bias in multimodal large language models (MLLMs). It assesses gender bias through narratives of social relationships, including dual-role profiles and narrative generation tasks, to capture rich interpersonal dynamics and enable fine-grained bias evaluation across multiple dimensions. The dataset comprises 1,440 narrative elicitation pairs (NEPs), each consisting of a textual prompt and a corresponding image depicting social interactions between a male and a female character. These scenarios cover diverse ages, domains, and relational dynamics to ensure comprehensive evaluation. The dataset construction involves four stages: narrative element design, NEP generation, response collection, and evaluation. The evaluation method integrates LLMs and NLP tools to assess bias in character profiles and generated narratives. GENRES aims to address the evaluation and mitigation of gender bias in multimodal generative systems.

提供机构：

上海科技大学信息科学与技术学院

创建时间：

2025-06-29

搜集汇总

数据集介绍

构建方式

GENRES数据集的构建采用半自动化流程，通过四阶段设计实现：首先基于Fiske社会关系理论设计叙事元素（包含年龄组、1440种社交关系类型和场景），随后通过模板生成文本提示并配合GPT-4o生成的场景描述，使用Stable Diffusion XL生成对应图像并经过CLIP过滤和人工校验，最终形成包含文本-图像对的叙事激发组合（NEPs）。该流程特别注重消除角色和性别线索，通过随机分配角色位置和对称化关系设计确保评估的公正性。

特点

作为首个专注于双人社交互动场景的多模态性别偏见评估基准，GENRES具备三大核心特征：其评估框架覆盖人物属性分配、能动性角色、情感表达和叙事框架四个维度；通过1,440个涵盖不同年龄层和社交关系（CS/EM/MP/AR）的冲突与合作场景，系统捕捉模型在复杂人际动态中的隐性偏见；创新性地整合LLM分析与传统NLP技术（如SVO解析和情感词典），实现生成内容的多粒度偏见测量。

使用方法

使用GENRES时需通过标准化流程激发模型生成双人叙事：首先输入包含社交关系描述的文本提示和对应场景图像，要求模型生成角色档案及500字叙事文本；随后采用配套评估工具包分析生成内容，包括基于SpaCy的句法分析提取主语频率，利用NRC情感词典量化情绪词分布，并通过LLM评估角色立体性及社会地位分配。最终通过8项指标计算标准化偏见分数，支持跨模型横向比较和特定关系类型的深度分析。

背景与挑战

背景概述

GENRES是由上海科技大学的Yue Xu和Wenjie Wang等人于2025年提出的一个创新性多模态大语言模型（MLLMs）性别偏见评估基准。该数据集聚焦于社会关系视角下的双人交互情境，旨在揭示传统单角色评估中难以捕捉的语境敏感性偏见。基于Fiske的社会关系理论，GENRES构建了1,440个包含文本-图像对的叙事激发样本，覆盖权威排序（AR）、平等匹配（EM）等四种关系类型，填补了现有评测方法在人际动态偏见检测上的空白。其创新性的多维度评估框架（包括角色分配、情感表达等8项指标）为理解MLLMs中隐性的社会刻板印象提供了系统化工具，推动了可信AI的发展。

当前挑战

GENRES面临的核心挑战体现在问题领域和构建过程两个维度：在问题领域方面，需解决多模态生成中基于社会关系的隐性性别偏见检测难题，包括角色分配中的权力不对称（如AR关系中83%案例存在权威角色性别偏差）、情感表达的刻板分化（女性角色温暖相关词汇超配达12.7%）等复杂问题；在构建过程中，需克服图像-文本对齐的精准控制（CLIP过滤阈值需精确至0.25）、关系场景的无偏设计（避免如'医生-护士'等固有性别联想）等技术挑战，同时确保生成的1,440个叙事样本在年龄、职业等维度保持平衡分布。

常用场景

经典使用场景

GENRES数据集通过双角色叙事生成任务，系统评估多模态大语言模型在社交关系语境中的性别偏见。其经典使用场景包括：在控制年龄、社会关系类型和互动情境的条件下，要求模型生成包含明确性别标记的角色档案及500字叙事段落，通过对比分析单角色与双角色设置中温暖相关词汇分配、主体句占比等指标，揭示模型在人际互动中隐含的性别刻板印象。该设计特别适用于检测权威排序（AR）、市场定价（MP）等非对称社会关系中，模型对职业权威、经济地位等属性的性别化关联倾向。

解决学术问题

该数据集解决了现有性别偏见评测中三个关键学术问题：首先，突破了传统单实体评估的局限，首次系统量化了交互情境中涌现的语境敏感型性别偏见；其次，基于Fiske社会关系理论构建的1,440个叙事诱发对（NEPs），为多维度偏见分析提供了结构化框架；最后，开发的综合评估套件（涵盖档案分配、能动性角色、情感表达等8项指标）实现了对开放式生成内容的细粒度偏见测量，弥补了传统基于词频或情感分析的表面化评测缺陷。

衍生相关工作

基于GENRES的衍生研究已形成两条主线：方法论层面，Levy等人(2024)扩展其关系类型至浪漫关系冲突分析；技术层面，Qwen团队利用该基准开发了角色交换对抗训练技术，使Qwen-VL-7B在权威分配指标上偏差降低37%。数据集还催生了VisoGender等跨模态评测基准，推动性别偏见研究从文本单模态向图文推理任务延伸。最新工作如GenderBias-VL(2024)则借鉴其情境化评估理念，构建了反事实视觉问答评测体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集