cross-cultural-vlm-data

github2026-04-26 更新2026-04-27 收录

下载链接：

https://github.com/jbaelaw/cross-cultural-vlm-data

下载链接

链接失效反馈

官方服务：

资源简介：

分析了2,328条记录：东亚（n = 1,200；韩国300，中国500，日本400）和西方（n = 1,128）。这些记录对应于2,313张独特图片。十五张图片在数据集组装过程中出现在两个文化文件夹下（例如，大都会艺术博物馆的跨区域收藏作品），因此根据每个标签作为单独记录包含在内，如手稿中所述。源图片未在此包中重新分发。它们可根据大都会艺术博物馆、韩国国立中央博物馆和克利夫兰艺术博物馆的开放获取政策，按照CC0许可或韩国的公共API规定获取。原始VLM隐藏状态数组和原始视觉编码器嵌入数组未包含在内；可根据请求从通讯作者处获取。

A total of 2,328 records were analyzed, comprising 1,200 from East Asia (300 from South Korea, 500 from China, and 400 from Japan) and 1,128 from Western regions. These records correspond to 2,313 unique images. Fifteen images were present in both cultural folders during dataset assembly (e.g., cross-regional collection works from the Metropolitan Museum of Art), and thus were included as separate records per each label as described in the manuscript. Source images were not redistributed within this package. They are accessible under the CC0 license in accordance with the open access policies of the Metropolitan Museum of Art, the National Museum of Korea, and the Cleveland Museum of Art, or per the public API regulations of South Korea. Raw VLM hidden state arrays and raw visual encoder embedding arrays are not included herein; these are available upon request from the corresponding author.

创建时间：

2026-04-26

原始信息汇总

数据集概述

基本描述

数据集名称：跨文化视觉-语言模型评分差异数据集（Cross-Cultural Score Disparities in Vision-Language Models）
来源：与论文《Cross-Cultural Score Disparities in Vision-Language Models: Internal Probing Reveals Processing Asymmetry》配套的数据与代码仓库
仓库地址：https://github.com/jbaelaw/cross-cultural-vlm-data

数据规模与构成

总记录数：2,328 条
- 东亚文化：1,200 条（韩国 300 条、中国 500 条、日本 400 条）
- 西方文化：1,128 条
图像数量：2,313 张独立图像；其中有 15 张图像因出现在两个文化文件夹中（如大都会艺术博物馆的跨地区收藏作品），被分别记录为两条，符合论文描述

数据内容

数据文件（JSON 格式）：
- final_stats.json：核心统计量（效应量、p 值、样本量、回归分析、中介分析）
- extended_stats.json：扩展统计量（温度、对数几率分布、交叉注意力、编码鲁棒性、梯度细节）
- experiment_metadata_all.json：全部 2,328 条记录的图像-文化映射关系
- compression_curated.json：每张图像的压缩与频谱指标
提示词：prompts/ 目录包含完整的推理提示词与参考文本
图表：figures/ 目录包含论文中已发布的 PDF 格式图像

数据来源与许可

图像来源：图像未直接分发，可依据大都会艺术博物馆、国立中央博物馆（韩国）、克利夫兰艺术博物馆的开放获取政策获取，遵循 CC0 许可或韩国公共 API 规定
许可协议：
- 代码：MIT 许可
- data/、prompts/、figures/ 目录下的数据文件：CC0 1.0 许可

使用说明

验证脚本：运行 verify_complete.py 可交叉验证论文中 71 处数值声明（效应量、p 值、样本量、回归系数等），期望输出为“ALL CHECKS PASSED”
完整复现：若需从头生成 JSON 文件与图表，需从 Zenodo 存档下载原始结果分片，并放置于 results/runpod_final/ 目录下
可用性：原始的 VLM 隐藏状态数组与视觉编码器嵌入数组未包含，可向通讯作者索取

搜集汇总

数据集介绍

构建方式

该数据集基于跨文化视觉语言模型（VLM）的偏见分析构建，共包含2,328条记录，其中东亚样本（包括韩国300、中国500、日本400）为1,200条，西方样本为1,128条。这些记录对应2,313张独特图像，部分图像因跨区域收藏而被重复标注。数据集通过六阶段VLM推理流程生成，涵盖生成、注意力机制、隐藏状态、编码成本、梯度归因、视觉编码器及交叉注意力等多个维度。源图像遵循大都会艺术博物馆等机构的开放获取政策，原始VLM隐藏状态及视觉编码器嵌入数据可根据请求提供。

特点

数据集的核心特点在于其系统性剖析了VLM中跨文化分数的差异，并揭示了模型内部处理的非对称性。通过内部探针技术，数据集不仅记录了效应量、p值及样本量等核心统计指标，还涵盖了温度、对数分布、交叉注意力、编码鲁棒性和梯度细节等扩展分析。此外，数据集提供了实验元数据，详细记录了每一张图像与其文化标签的映射关系，以及每幅图像的压缩和频谱度量，为深入理解文化偏见提供了多维度的量化视角。

使用方法

数据集的使用方法简便高效，用户可通过安装依赖并运行验证脚本快速复现论文中的71项数值声明。具体步骤包括执行pip install -r requirements.txt安装所需库，再运行python code/verify_complete.py进行交叉验证。对于希望从头复现完整分析的用户，需从Zenodo档案下载原始分片数据并放置于相应目录，随后依次运行最终分析、扩展分析和图表生成脚本。代码与数据文件均采用开放许可，便于研究人员在学术环境中自由使用和扩展。

背景与挑战

背景概述

跨文化视觉语言模型（VLM）的公平性与鲁棒性是人工智能领域的前沿议题。该数据集由研究团队于2023年创建，聚焦于视觉语言模型在处理不同文化背景图像时表现出的系统性偏差。核心研究问题在于揭示模型对东亚文化（韩国、中国、日本）与西方文化图像在生成、注意力机制及隐含表征上的处理不对称性。基于2328条记录（含1200张东亚图像与1128张西方图像），研究通过六通道推理管线（生成、注意力、隐状态、编码代价、梯度归因及交叉注意力）进行深度剖析，发现模型在跨文化场景中存在显著的分数差异。该工作对多模态基准测试的文化公平性设计具有里程碑意义，推动了对VLM内在文化偏见的量化理解。

当前挑战

领域问题层面，视觉语言模型在跨文化场景中的系统性偏差尚未得到充分表征，现有基准多聚焦于通用视觉任务而忽略文化特异性，导致模型在全球化部署中可能对特定文化群体产生不公平的处理结果。构建过程中面临多重挑战：首先，文化标注的歧义性难以消解，如大都会艺术博物馆等跨区域藏品需同时归入多个文化标签，使得数据标注需依赖专家共识；其次，原始图像因版权与开放获取政策限制无法直接分发，需协调多家博物馆的CC0与公共API许可协议；再者，高维隐状态与编码器嵌入数组的数据量庞大，存储与传输成本极高，仅能通过对应作者请求获取；最后，跨文化样本量不均衡（东亚洲1200张vs西方1128张）及细粒度分类（韩、中、日子类）增加了统计分析的复杂性。

常用场景

经典使用场景

该数据集专为评估和诊断视觉语言模型在不同文化背景下的表现差异而设计，其经典使用场景在于引导研究者量化模型对东亚（韩、中、日）与西方艺术图像的理解偏差。通过提供2,328条经文化标注的记录及配套的六通路推理流程（涵盖生成、注意力、隐藏状态、编码代价、梯度归因等模块），该资源使学术界能够系统性地剖析模型在跨文化视觉语义处理中的不对称性，从而为更公平、更具包容性的多模态模型设计提供实证基础。

实际应用

在实际应用中，该数据集为文化遗产数字化、国际教育平台及全球化产品部署等场景提供了可靠的评测工具。例如，数字博物馆可使用其指标筛选出对东亚或西方艺术品理解不均的模型组件，进而调整推荐算法；跨国企业则能借由文化差异的诊断结果，优化面向不同区域用户的视觉问答服务，减少因文化盲区导致的交互失败。其衍生范式亦被应用于地理文化敏感的图像检索系统开发中。

衍生相关工作

该数据集催生了一系列后续研究，包括基于注意力头裁剪的文化偏差修正方法、以隐藏状态相似度为核心的文化表征聚类分析，以及利用梯度归因定位模型文化敏感区域的解释性工作。部分研究进一步将其统计中介模型迁移至音频-文本跨模态场景，验证了文化不对称现象的跨模态普遍性。此外，该资源常被引用于构建文化鲁棒性评估基准，如对比不同规模视觉语言模型的文化适应能力差异，显著拓宽了多模态公平性研究的理论边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集