CrossCult-KIBench

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/crosscult-kibench/CrossCult-KIBench

下载链接

链接失效反馈

官方服务：

资源简介：

CrossCult-KIBench 是一个多模态基准数据集，用于评估多模态大语言模型中的文化知识插入能力。该基准测试模型是否能够在视觉基础问题中吸收特定文化的更新，同时保持泛化和跨语言的局部性。数据集包含 49 个场景，涵盖“社会”、“宗教”和“伦理”三个主题组。数据规模包括 11,600 个训练案例、4,000 个单插入评估案例和 2,000 个顺序插入评估链。数据集支持多种语言（英语、中文、阿拉伯语），并包含图像和文本数据。数据集适用于多模态知识插入、模型编辑、基准设计和跨文化评估等研究任务。数据集的使用受 CC BY-NC 4.0 许可限制，仅限非商业研究用途。

CrossCult-KIBench is a multimodal benchmark dataset developed to evaluate the cultural knowledge insertion capability of multimodal large language models. This benchmark assesses whether models can absorb culturally specific updates in visually grounded questions, while maintaining generalization and cross-lingual locality. The dataset contains 49 scenarios spanning three thematic groups: "Society", "Religion", and "Ethics". It includes 11,600 training instances, 4,000 single-insertion evaluation cases, and 2,000 sequential insertion evaluation chains. The dataset supports multiple languages (English, Chinese, Arabic) and contains both image and text data. It is applicable to research tasks such as multimodal knowledge insertion, model editing, benchmark design, and cross-cultural evaluation. The use of this dataset is restricted by the CC BY-NC 4.0 license, and is only allowed for non-commercial research purposes.

创建时间：

2026-05-02

搜集汇总

数据集介绍

构建方式

CrossCult-KIBench是一个面向多模态大语言模型文化知识注入能力的评测基准。该数据集通过融合生成式图像与来自HaGRID、Fashionpedia、ChineseFoodNet、VireoFood172、SVHN、CCPD及Open Images V7等第三方来源的图像，构建了涵盖社交、宗教与伦理三大主题、共计49个细分场景的评测案例。每个案例包含图像、多语言问答案例以及针对泛化性与局部性的探针问题。数据集的构建流程中，GPT-5.4-mini将场景元数据扩展为图像生成提示，由Qwen-Image生成候选图像，再由Gemini 3.1 Flash-Lite从已验证图像和场景元数据中起草多语言问答对，最后由基准策划者对生成图像进行筛选，并对第三方图像进行处理以确保其符合评测需求。数据集提供了单次注入与序列注入两种评测模式，并包含中文与阿拉伯语的目标注入场景以及英语、中文和阿拉伯语的多语言序列注入链。

使用方法

该数据集的使用需结合随附的代码包（托管于GitHub），该代码包提供了环境配置、模型加载、训练与评估入口、方法配置、启动脚本及图像重建辅助工具。使用者首先需根据metadata.json中的场景来源说明，从HaGRID、Fashionpedia等官方源下载第三方数据集，并按照image_match_list目录下的CSV映射文件将原始图像放置于代码包指定的data/raw_data路径下。随后，通过运行data_process目录中的重建脚本，可生成未直接打包的第三方图像子集。完成数据准备后，用户可通过评估入口加载模型，并依据split文件中的划分，分别对单次注入测试集（test_single.json）和序列注入测试集（test_sequential.json）进行评测。该数据集亦可与croissant.json等元数据文件配合，以支持可复现的基准测试流程。

背景与挑战

背景概述

在人工智能与跨文化研究深度交融的时代，多模态大语言模型在理解与生成视觉与文本信息方面取得了显著进展，但其在面对文化特异性知识时，常表现出更新能力不足、泛化与局部性失衡的局限。为此，CrossCult-KIBench于近期由匿名团队构建，旨在系统评估模型在文化知识插入任务中的表现。该数据集涵盖社会、宗教与伦理三大主题下的49个场景，包含9,800个多语言原始案例，并衍生出中、英、阿三语的单次与顺序插入评估任务。其核心研究问题聚焦于模型能否在吸收文化特定更新的同时保持泛化能力与局部性，填补了跨文化多模态评估基准的空白，对模型编辑、知识注入及文化认知研究具有重要推动作用。

当前挑战

CrossCult-KIBench应对的核心领域挑战是多模态大语言模型在跨文化场景下知识插入的可靠性与泛化性，具体包括：模型在单次更新后能否精准回答文化相关问题，同时不破坏对无关场景的性能；在多语言、多步骤顺序插入中保持连续稳定性。构建过程中亦面临多重困难：如何从有限的文化元数据中生成高保真、无偏见的视觉图像与问答对；如何平衡第三方面数据集的来源差异性与版权合规性，确保重建图像与原始情境的语义一致性；以及如何设计评估指标，在跨语言与跨场景的探针中真实反映模型的编辑效果与文化适应性。这些挑战共同决定了基准的有效性与研究价值。

常用场景

经典使用场景

CrossCult-KIBench是一个多模态基准数据集，专用于评估多模态大语言模型中的文化知识插入能力。其经典使用场景聚焦于测试模型在视觉问答任务中吸收特定文化更新后，能否保持泛化能力与局部性约束。数据涵盖社会、宗教和伦理三大主题群，包含49个场景的近万条多语言样本。研究者可利用训练集进行单次插入训练，通过测试集验证模型在跨语言、跨场景条件下的编辑可靠性，尤其适用于探究模型编辑方法在多元文化语境下的表现边界。

解决学术问题

该数据集旨在解决多模态大语言模型在跨文化知识编辑中的核心学术难题：如何在不破坏模型已有知识结构的前提下，精准插入特定文化背景的视觉-语言关联信息。传统模型编辑工作多聚焦于单语言或单文化场景，缺乏对文化多样性的系统考量。CrossCult-KIBench通过精心设计的跨语言泛化探针和跨场景局部性测试，为研究者提供了量化模型编辑后知识迁移鲁棒性的标准化工具，推动了文化感知型模型编辑这一新兴研究方向的规范化发展。

实际应用

在实际应用中，CrossCult-KIBench为需要动态更新文化知识的多模态系统提供了验证基准。例如，面向全球用户的智能助手在部署后可能需要根据地域差异调整对特定手势、服饰或节日习俗的视觉理解，该数据集能够系统评估模型编辑方法在类似场景中的安全性和有效性。此外，它还可用于检测和预防模型在跨文化迁移过程中产生的偏见或误判，帮助构建更具文化包容性的视觉问答系统，服务于国际化产品中的个性化内容推荐、教育辅助等多元应用场景。

数据集最近研究