GIMMICK

Name: GIMMICK
Creator: 汉堡大学语言技术组，汉堡大学数据科学组
Published: 2025-02-19 22:27:40
License: 暂无描述

arXiv2025-02-19 更新2025-02-21 收录

下载链接：

http://github.com/floschne/gimmick

下载链接

链接失效反馈

官方服务：

资源简介：

GIMMICK是一个包含三个新数据集的广泛多模态基准，涵盖728个独特的文化事件或方面，分布在144个国家的六个全球宏观区域。这些数据集旨在评估31个最先进的模型在多个任务上的文化知识，涉及图像、文本和视频等多种输入模态，以评估大型视觉语言模型在处理非西方文化背景任务时的性能和偏见。

GIMMICK is a comprehensive multimodal benchmark comprising three novel datasets, encompassing 728 unique cultural events or aspects and spanning six global macro-regions across 144 countries. These datasets are designed to evaluate the cultural knowledge of 31 state-of-the-art models across multiple tasks involving diverse input modalities such as images, text, and videos, aiming to assess the performance and biases of large vision-language models when handling tasks with non-Western cultural backgrounds.

提供机构：

汉堡大学语言技术组，汉堡大学数据科学组

创建时间：

2025-02-19

搜集汇总

数据集介绍

构建方式

GIMMICK数据集构建于联合国教科文组织非物质文化遗产项目（UNESCO ICH）的高质量开放数据，旨在评估大视觉语言模型（LVLMs）和大型语言模型（LLMs）的文化知识。该数据集涵盖了来自全球六大宏观区域的144个国家的728个独特的文化事件或特征。数据集的构建分为三个步骤：合成数据生成、数据注释和任务设计。合成数据生成阶段利用GPT-4o生成基础数据，随后通过两阶段的数据注释过程确保数据的质量和多样性。任务设计包括六个任务，旨在评估模型对不同层次文化知识的理解能力。

特点

GIMMICK数据集具有以下特点：1）全球性：涵盖全球六大宏观区域的144个国家的文化事件或特征；2）多模态：数据集包含文本、图像和视频等多种模态；3）任务多样性：包含六个任务，旨在评估模型对不同层次文化知识的理解能力；4）模型多样性：评估了31个最先进的模型，包括从500M到78B参数大小的模型；5）文化知识全面性：数据集涵盖了728个独特的文化事件或特征，包括食物、仪式、艺术、音乐、手工艺、节日、服装、建筑等多个方面。

使用方法

GIMMICK数据集可用于评估和比较LVLMs和LLMs的文化知识。研究人员可以使用数据集进行模型训练、性能评估和模型改进。此外，数据集还可以用于研究文化偏见、模型大小、输入模态和外部线索对模型性能的影响。使用数据集时，研究人员可以根据需要选择不同的任务和模型，并使用适当的评估指标来评估模型的性能。

背景与挑战

背景概述

GIMMICK 数据集，全称为 Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking，是由汉堡大学的语言技术小组和数据科学小组共同创建的。该数据集旨在评估大型视觉语言模型（LVLMs）在144个国家涵盖的广泛文化知识，这些国家代表了六个全球宏观区域。GIMMICK 数据集包含六个任务，基于三个新的数据集，这些数据集跨越了728个独特的文化事件或方面。研究人员评估了20个LVLMs和11个LLMs，包括五个专有模型和26个开放权重模型，涵盖所有尺寸。研究系统地检查了（1）区域文化偏见，（2）模型尺寸的影响，（3）输入模态，以及（4）外部线索。研究结果表明，模型对西方文化存在强烈偏见，并且模型尺寸与性能之间存在强相关性，以及多模态输入和外部地理线索的有效性。研究还发现，模型对有形方面的知识比对无形方面的知识更多（例如，食物与仪式），并且在识别广泛的文化起源方面表现出色，但在更细致的理解方面则有所欠缺。

当前挑战

GIMMICK 数据集面临的挑战包括：1) 区域文化偏见：模型在处理非西方文化时表现不佳，存在明显的文化偏见。2) 模型尺寸的影响：尽管更大的模型通常表现更好，但即使是最大的模型在理解细微的文化方面也存在困难。3) 输入模态的影响：多模态输入通常会导致更好的结果，但文本输入在提供文化背景方面更为重要。4) 外部线索的影响：提供国家信息可以指导模型给出更好的答案，特别是对于模型表现较差的地区。5) 英文基准的局限性：尽管英语性能被认为是大多数模型的上限，但尚未在所有任务、模型尺寸和模型家族中测试这一假设。6) 开放式VQA的评估挑战：开放式问答任务中的开放式答案给充分评估带来了挑战，尤其是在涉及罕见、文化特定的答案术语时。7) 样本数量有限：尽管GIMMICK是最近基准测试中样本数量第三多的，但每个任务的样本数量相对较低，导致每个国家或文化的样本数量更少，使得对单个国家的判断不够信息丰富。8) 伦理考虑：GIMMICK采用联合国教科文组织非物质文化遗产数据集的国家和地区分类，这些分类可能存在不同的解释，并且某些问题或答案可能对某些文化起源的人具有冒犯性。

常用场景

经典使用场景

GIMMICK 数据集主要用于评估大型视觉语言模型（LVLMs）和语言模型（LLMs）在处理跨文化知识方面的能力。它通过六个任务来评估模型在144个国家/地区代表六个全球宏观区域的文化知识。这些任务包括文化图像VQA、文化视频VQA、文化起源QA和文化知识QA，旨在全面评估模型在理解不同文化方面的高层次和细微的文化知识。GIMMICK 数据集通过多模态和单模态任务来评估模型，使用户能够更深入地了解模型的文化理解能力。

衍生相关工作

GIMMICK 数据集的发布促进了更多相关研究的发展。例如，研究人员可以利用该数据集来开发能够更好地理解和处理跨文化知识的新模型，或使用该数据集来评估和改进现有模型的文化理解能力。此外，GIMMICK 数据集还可以用于研究文化偏见和模型大小对模型性能的影响，以及输入模态和外部提示的作用。这些研究可以为开发更公平、更包容的人工智能系统提供重要的指导。

数据集最近研究