Bias in the Picture Benchmark

github2025-11-22 更新2025-11-25 收录

下载链接：

https://github.com/VectorInstitute/bias-in-the-picture-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

包含1,343个新闻来源的图像-问题对，标注了人口统计和社会属性，用于评估视觉语言模型对包含年龄、性别、种族和职业等社会线索的真实新闻图像的响应

This dataset comprises 1,343 image-question pairs derived from news outlets, annotated with demographic and social attributes. It is designed to evaluate the responses of vision-language models to real news images containing social cues such as age, gender, race, occupation, and other similar social cues.

创建时间：

2025-11-22

原始信息汇总

Bias in the Picture Benchmark 数据集概述

数据集简介

Bias in the Picture Benchmark 是一个用于评估视觉语言模型在包含社会线索的真实新闻图像中表现偏差的基准数据集。该数据集包含1,343个源自新闻的图像-问题对，标注了人口统计和社会属性。

核心特征

真实世界社会线索基准：包含1,343个新闻衍生的图像-问题对
多模态评估流程：提供运行VLM推理、清理输出和计算评估指标的工具
广泛模型覆盖：支持Aya Vision、Gemini/Gemma、Phi、Qwen2.5-VL、LLaMA、Molmo、CogVLM2、Paligemma、LLaVA、JanusPro等模型
LLM-as-Judge评分：使用结构化评分标准系统评估准确性、偏差和忠实度

评估指标

LLM-as-Judge指标：偏差、忠实度、相关性
标准NLP指标：BERTScore、METEOR、FrugalScore

数据集结构

数据文件：data/data.parquet
源代码：src/目录包含完整流程（数据准备、推理、指标计算）
文档：docs/目录包含使用指南

使用方式

安装依赖环境
运行处理流程：
- 数据预处理
- 模型推理
- 计算评估指标

引用信息

如需使用该基准数据集，请引用相关论文：

@misc{narayanan2025biaspicturebenchmarkingvlms, title={Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment}, author={Aravind Narayanan and Vahid Reza Khazaie and Shaina Raza}, year={2025}, eprint={2509.19659}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2509.19659} }

联系方式

问题反馈：https://github.com/VectorInstitute/bias-in-the-picture-benchmark/issues
作者邮箱：aravind.narayanan@vectorinstitute.ai

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，Bias in the Picture Benchmark通过系统化采集真实新闻图像构建而成。该数据集从现实场景中筛选出1,343组包含社会属性线索的图像-问题对，涵盖年龄、性别、种族和职业等维度。构建过程中采用人工标注与自动化处理相结合的方式，确保每个样本都经过严格的社会属性标注和质量验证，为研究视觉语言模型的社会偏见提供了坚实的实证基础。

使用方法

使用该基准测试需遵循模块化评估流程，首先通过数据预处理脚本准备评估样本，随后调用专用推理脚本在目标视觉语言模型上生成回答。评估阶段采用分层度量体系，既包含BERTScore、METEOR等传统自然语言处理指标，也整合了基于大语言模型的偏见评估模块。整个流程通过标准化代码库实现，研究者可根据需要灵活调整评估维度与模型配置。

背景与挑战

背景概述

随着多模态人工智能技术的快速发展，视觉语言模型在理解和生成跨模态内容方面展现出巨大潜力。Bias in the Picture Benchmark由Vector Institute的研究团队于2025年推出，聚焦于评估模型对含社会属性新闻图像的响应偏差。该数据集包含1,343个源自真实新闻的图像-问题对，标注了年龄、性别、种族和职业等社会线索，旨在揭示视觉语言模型在处理社会语境时存在的潜在偏见，为促进公平人工智能发展提供了重要实证基础。

当前挑战

该数据集致力于解决视觉语言模型在社会属性认知中的偏差检测难题，其核心挑战在于如何量化模型对人口统计特征的隐性刻板印象。构建过程中面临双重困难：一是新闻图像社会属性的精细化标注需要平衡语义准确性与文化敏感性；二是评估框架需融合传统自然语言处理指标与基于大语言模型的评判机制，确保偏差度量的可解释性与跨模型可比性。

常用场景

经典使用场景

在视觉语言模型评估领域，该数据集通过1,343组新闻图像与问题对构建了社会线索基准，典型应用于系统检测模型对年龄、性别、种族等社会属性的响应模式。研究者可借助标准化流程执行多模态推理，分析模型在真实新闻语境下是否产生刻板印象或偏见性输出，为模型公平性研究提供量化依据。

解决学术问题

该数据集有效应对了多模态模型中社会偏见难以量化评估的学术挑战，通过LLM-as-Judge评估框架结合BERTScore等统计指标，系统化解构了模型输出的准确性、忠实度与相关性。其意义在于建立了可复现的偏见检测范式，推动视觉语言模型向更具社会包容性的方向发展，为伦理人工智能研究提供了关键方法论支撑。

实际应用

实际应用中，该基准被科技企业与研究机构用于预训练模型的质量控制，例如在新闻推荐系统、自动配文生成等场景中筛查潜在偏见。通过检测模型对特定职业、族群的表述倾向，助力开发团队优化模型参数，降低AI系统在医疗诊断、司法评估等敏感领域部署时的歧视风险。

数据集最近研究