five

GIMMICK|多模态数据数据集|文化知识评估数据集

收藏
arXiv2025-02-19 更新2025-02-21 收录
多模态数据
文化知识评估
下载链接:
http://github.com/floschne/gimmick
下载链接
链接失效反馈
资源简介:
GIMMICK是一个包含三个新数据集的广泛多模态基准,涵盖728个独特的文化事件或方面,分布在144个国家的六个全球宏观区域。这些数据集旨在评估31个最先进的模型在多个任务上的文化知识,涉及图像、文本和视频等多种输入模态,以评估大型视觉语言模型在处理非西方文化背景任务时的性能和偏见。
提供机构:
汉堡大学语言技术组,汉堡大学数据科学组
创建时间:
2025-02-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
GIMMICK数据集构建于联合国教科文组织非物质文化遗产项目(UNESCO ICH)的高质量开放数据,旨在评估大视觉语言模型(LVLMs)和大型语言模型(LLMs)的文化知识。该数据集涵盖了来自全球六大宏观区域的144个国家的728个独特的文化事件或特征。数据集的构建分为三个步骤:合成数据生成、数据注释和任务设计。合成数据生成阶段利用GPT-4o生成基础数据,随后通过两阶段的数据注释过程确保数据的质量和多样性。任务设计包括六个任务,旨在评估模型对不同层次文化知识的理解能力。
特点
GIMMICK数据集具有以下特点:1)全球性:涵盖全球六大宏观区域的144个国家的文化事件或特征;2)多模态:数据集包含文本、图像和视频等多种模态;3)任务多样性:包含六个任务,旨在评估模型对不同层次文化知识的理解能力;4)模型多样性:评估了31个最先进的模型,包括从500M到78B参数大小的模型;5)文化知识全面性:数据集涵盖了728个独特的文化事件或特征,包括食物、仪式、艺术、音乐、手工艺、节日、服装、建筑等多个方面。
使用方法
GIMMICK数据集可用于评估和比较LVLMs和LLMs的文化知识。研究人员可以使用数据集进行模型训练、性能评估和模型改进。此外,数据集还可以用于研究文化偏见、模型大小、输入模态和外部线索对模型性能的影响。使用数据集时,研究人员可以根据需要选择不同的任务和模型,并使用适当的评估指标来评估模型的性能。
背景与挑战
背景概述
GIMMICK 数据集,全称为 Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking,是由汉堡大学的语言技术小组和数据科学小组共同创建的。该数据集旨在评估大型视觉语言模型(LVLMs)在144个国家涵盖的广泛文化知识,这些国家代表了六个全球宏观区域。GIMMICK 数据集包含六个任务,基于三个新的数据集,这些数据集跨越了728个独特的文化事件或方面。研究人员评估了20个LVLMs和11个LLMs,包括五个专有模型和26个开放权重模型,涵盖所有尺寸。研究系统地检查了(1)区域文化偏见,(2)模型尺寸的影响,(3)输入模态,以及(4)外部线索。研究结果表明,模型对西方文化存在强烈偏见,并且模型尺寸与性能之间存在强相关性,以及多模态输入和外部地理线索的有效性。研究还发现,模型对有形方面的知识比对无形方面的知识更多(例如,食物与仪式),并且在识别广泛的文化起源方面表现出色,但在更细致的理解方面则有所欠缺。
当前挑战
GIMMICK 数据集面临的挑战包括:1) 区域文化偏见:模型在处理非西方文化时表现不佳,存在明显的文化偏见。2) 模型尺寸的影响:尽管更大的模型通常表现更好,但即使是最大的模型在理解细微的文化方面也存在困难。3) 输入模态的影响:多模态输入通常会导致更好的结果,但文本输入在提供文化背景方面更为重要。4) 外部线索的影响:提供国家信息可以指导模型给出更好的答案,特别是对于模型表现较差的地区。5) 英文基准的局限性:尽管英语性能被认为是大多数模型的上限,但尚未在所有任务、模型尺寸和模型家族中测试这一假设。6) 开放式VQA的评估挑战:开放式问答任务中的开放式答案给充分评估带来了挑战,尤其是在涉及罕见、文化特定的答案术语时。7) 样本数量有限:尽管GIMMICK是最近基准测试中样本数量第三多的,但每个任务的样本数量相对较低,导致每个国家或文化的样本数量更少,使得对单个国家的判断不够信息丰富。8) 伦理考虑:GIMMICK采用联合国教科文组织非物质文化遗产数据集的国家和地区分类,这些分类可能存在不同的解释,并且某些问题或答案可能对某些文化起源的人具有冒犯性。
常用场景
经典使用场景
GIMMICK 数据集主要用于评估大型视觉语言模型(LVLMs)和语言模型(LLMs)在处理跨文化知识方面的能力。它通过六个任务来评估模型在144个国家/地区代表六个全球宏观区域的文化知识。这些任务包括文化图像VQA、文化视频VQA、文化起源QA和文化知识QA,旨在全面评估模型在理解不同文化方面的高层次和细微的文化知识。GIMMICK 数据集通过多模态和单模态任务来评估模型,使用户能够更深入地了解模型的文化理解能力。
衍生相关工作
GIMMICK 数据集的发布促进了更多相关研究的发展。例如,研究人员可以利用该数据集来开发能够更好地理解和处理跨文化知识的新模型,或使用该数据集来评估和改进现有模型的文化理解能力。此外,GIMMICK 数据集还可以用于研究文化偏见和模型大小对模型性能的影响,以及输入模态和外部提示的作用。这些研究可以为开发更公平、更包容的人工智能系统提供重要的指导。
数据集最近研究
最新研究方向
针对视觉语言模型在文化知识方面存在的区域偏见,GIMMICK数据集的研究方向主要集中在如何评估和提升模型在全球范围内的文化知识。该研究不仅揭示了当前模型在处理非西方文化知识时的不足,还发现了模型规模与性能之间的强相关性,以及多模态输入和外部地理线索的有效性。GIMMICK的研究结果表明,模型在理解广泛的文化起源方面表现出色,但在更细致入微的理解方面却显得力不从心。这一发现强调了在全球范围内进行文化知识建模的紧迫性和挑战性,为未来的研究提供了有价值的参考。
相关研究论文
  • 1
    GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking汉堡大学语言技术组,汉堡大学数据科学组 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国车牌识别数据集(7类,33万张)

这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。

魔搭社区 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

中亚主要国家的原油资源的储量、产量、消费量及其占世界比重(1985-2016)

中亚五国中,石油资源主要分布在哈萨克斯坦、乌兹别克斯坦、土库曼斯坦三个国家。根据BP世界能源统计年鉴,经整理、抽取、计算和汇总后,形成中亚主要国家(哈萨克斯坦、乌兹别克斯坦、土库曼斯坦)原油资源的储量、产量、消费量及其占世界比重的统计表。 主要指标包括: (1)储量,1991-2016年,单位:百万吨 (2)产量,1985-2016年,单位:百万吨 (3)储产比,1991-2016年,单位:百万吨 (4)消费量,1985-2016年,单位:百万吨 (5)产消差额,1985-2016年,单位:百万吨 此外,以上数据均包括中亚地区的哈萨克斯坦、乌兹别克斯坦、土库曼斯坦、三国汇总以及世界总量的情况。

地球大数据科学工程 收录