TCC-Bench

Name: TCC-Bench
Creator: 北京邮电大学
Published: 2025-05-16 22:10:41
License: 暂无描述

arXiv2025-05-16 更新2025-05-20 收录

下载链接：

https://github.com/Morty-Xu/TCCBench

下载链接

链接失效反馈

官方服务：

资源简介：

TCC-Bench是一个旨在评估多模态大型语言模型对传统文化理解能力的视觉问答数据集。数据集包含丰富且视觉上多样化的数据，包括来自博物馆文物、日常生活场景、漫画等文化背景下的图像。该数据集采用半自动化流程，使用GPT-4o生成候选问题，并由人工筛选以保证数据质量。数据集还通过避免在问题文本中直接揭示文化概念来避免语言偏见。实验评估表明，现有的模型在处理基于文化的视觉内容时仍面临重大挑战。该数据集旨在推动文化包容和情境感知的多模态系统的研究。

TCC-Bench is a visual question answering (VQA) dataset designed to evaluate the cultural comprehension capabilities of multimodal large language models. The dataset features rich and visually diverse data, including images sourced from cultural contexts such as museum artifacts, daily life scenarios, and comics. It adopts a semi-automated pipeline: GPT-4o is used to generate candidate questions, which are then manually filtered to ensure data quality. Additionally, the dataset mitigates linguistic biases by refraining from directly revealing cultural concepts within question texts. Experimental evaluations demonstrate that existing models still face significant challenges when processing culturally grounded visual content. This dataset aims to advance research on culturally inclusive and context-aware multimodal systems.

提供机构：

北京邮电大学

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

TCC-Bench数据集的构建采用了半自动化的流程，结合了GPT-4o的文本生成能力与人工筛选的双重机制。首先，研究人员从互联网上精心收集了675张涵盖博物馆文物、日常生活场景、漫画等多种文化背景的图像，确保视觉多样性和文化真实性。随后，通过GPT-4o生成候选问题，并由具备传统中国文化背景的专业人员进行筛选和验证，以避免数据泄露和语言偏见。问题生成过程中特别强调不直接在问题文本中透露文化概念，以增强模型的视觉推理能力。

特点

TCC-Bench数据集具有鲜明的文化专属性与多模态特性，涵盖天文、音乐、习俗、建筑等八大传统中国文化领域，问题以中英双语呈现，确保了跨语言评估的可行性。数据集的独特之处在于其严格避免语言先验干扰的设计，即问题文本不直接包含图像中的文化概念，迫使模型必须依赖视觉内容进行推理。此外，每个问题均配备四个选项及详尽的解释，平均问题长度为15.7个中文字符或11.7个英文单词，形成了包含860个高质量问题的知识密集型评估体系。

使用方法

使用TCC-Bench时，研究者可通过视觉问答（VQA）框架评估多模态大语言模型对中国传统文化的理解能力。基准测试支持零样本、少样本及思维链（CoT）等多种提示策略，官方提供标准化提示模板以确保评估一致性。实验表明，模型在中文提示下的表现普遍优于英文，凸显了本土语言在文化概念表达上的优势。为规避隐私风险，闭源模型需通过API调用，而开源模型建议采用LMDeploy框架加速推理。该数据集特别适用于分析模型在视觉感知错误、文化知识缺失等四类典型错误上的表现。

背景与挑战

背景概述

TCC-Bench（Traditional Chinese Culture understanding Benchmark）是由北京邮电大学等机构的研究团队于2025年提出的多模态大语言模型（MLLMs）评测基准，旨在系统评估模型对中国传统文化的理解能力。该数据集构建于当前MLLMs在非西方文化语境中表现薄弱的学术背景下，特别针对传统中国文化中复杂的符号系统、习俗和哲学概念进行多维度覆盖。研究团队采用半自动化流程，结合GPT-4o的文本生成能力与人工校验，最终形成包含675幅文化图像和860道双语视觉问答的评测体系，涵盖天文、音乐、建筑等八大知识领域。作为首个系统化评估传统文化认知能力的基准，TCC-Bench为跨文化人工智能研究提供了重要基础设施。

当前挑战

TCC-Bench面临的核心挑战体现在两个方面：领域问题层面，现有MLLMs对非西方文化符号的识别准确率不足60%，尤其在传统天文仪器、古代服饰等专业领域存在显著知识盲区；数据构建层面，文化元素的视觉表征存在历史记录断层，约37%的候选图像因无法满足文化准确性要求被剔除。具体挑战包括：1）文化特异性理解难题，如青铜器纹饰的象征意义识别错误率达42%；2）多模态对齐困难，模型在结合视觉线索与文化知识推理时产生18.8%的逻辑错误；3）语言偏差问题，相同问题中英文版本的准确率差异最高达23%。这些挑战揭示了当前多模态系统在文化认知维度的重要局限。

常用场景

经典使用场景

TCC-Bench数据集作为评估多模态大语言模型（MLLMs）在理解中国传统文化方面能力的基准，广泛应用于视觉问答（VQA）任务中。通过涵盖天文、音乐、习俗、建筑、交通、饮食、服饰和文物等八个领域，该数据集为研究者提供了一个全面评估模型文化理解能力的平台。其双语（中英文）设计进一步扩展了应用范围，使得跨语言和文化背景的模型评估成为可能。

衍生相关工作

TCC-Bench的推出激发了多项相关研究，包括改进MLLMs的文化理解能力、开发新的评估方法以及探索跨文化多模态学习。例如，一些研究利用该数据集分析了模型在不同文化领域的表现差异，而另一些工作则专注于通过数据增强和特定领域微调来提升模型性能。这些衍生工作共同推动了 culturally-grounded AI 系统的发展。

数据集最近研究