CVLUE|视觉语言理解数据集|中国文化数据集

arXiv2024-07-01 更新2024-07-04 收录

视觉语言理解

中国文化

下载链接：

https://github.com/WangYuxuan93/CVLUE

下载链接

链接失效反馈

资源简介：

CVLUE数据集由浙江实验室和哈尔滨工业大学联合创建，专注于中文视觉语言理解评估。该数据集包含四个任务：图像-文本检索、视觉问答、视觉定位和视觉对话，共计17,920条数据。数据集的图像和对象类别均由中文母语者选择，确保了图像代表中国文化。CVLUE的创建过程严格，包括对象类别的选择、图像的收集和质量控制，旨在解决现有视觉语言数据集中的文化偏见问题，并提升模型对中国文化的理解能力。

提供机构：

浙江实验室, 哈尔滨工业大学

创建时间：

2024-07-01

原始信息汇总

CCL24-Eval 中文图文多模态理解评测任务

任务介绍

中文图文多模态理解评测（Chinese Vision-Language Understanding Evaluation，CVLUE）任务旨在从以下四个任务多角度评价中文图文多模态预训练模型的图文多模态建模和理解能力：

图片检索（Image Retrieval）
文本检索（Text Retrieval）
视觉问答（Visual Question Answering）
视觉定位（Visual Grounding）
视觉对话（Visual Dialog）

评测数据

本任务包含以下15大类、92小类的图片，图片内容为中国文化环境中具有代表性或日常生活常见：

大类	小类	小类数量
动物	大熊猫,牛,鱼,狗,马,鸡,鼠,鸟,人,猫	10
食物	火锅,米饭,饺子,面条,包子	5
饮品	奶茶,可乐,牛奶,茶,粥,酒	6
衣服	汉服,唐装,旗袍,西装,T恤	5
植物	柳树,银杏,梧桐,白桦,松树,菊花,牡丹,兰科,莲,百合	10
水果	荔枝,山楂,苹果,哈密瓜,龙眼	5
蔬菜	小白菜,马铃薯,大白菜,胡萝卜,花椰菜	5
农业	锄头,犁,耙,镰刀,担杖	5
工具	汤勺,碗,砧板,筷子,炒锅,扇子,菜刀,锅铲	8
家具	电视,桌子,椅子,冰箱,灶台	5
运动	乒乓球,篮球,游泳,足球,跑步	5
庆典	舞狮,龙舟,国旗,月饼,春联,花灯	6
教育用品	铅笔,黑板,毛笔,粉笔,原子笔,剪刀	6
乐器	古筝,二胡,唢呐,鼓,琵琶	5
艺术	书法,皮影,剪纸,秦始皇兵马俑,鼎,陶瓷	6

数据样例

图文检索

每张图片有 5 条各不相同的描述。

对应的描述为：

桌子中间摆放着火锅
两种口味的火锅摆放在木质的桌子上
一个辣的和一个菌汤锅底的火锅放在桌上
火锅四周摆满了涮火锅用的蔬菜、肉、丸子等食材
桌子中间摆放着两个口味的火锅，周围的陶瓷碗里盛放着涮火锅用的食材

视觉问答

针对图片提问，并作出回答。

针对图片的问答为：

Q: 龙舟划向什么方位? A: 右方
Q: 有几支队伍在划龙舟? A: 5
Q: 大多数人的姿势是站立还是坐着? A: 坐着

视觉定位

给出图片中，部分实体的描述，并给出其对应的 bounding box。

实体的描述：

戴眼镜女孩手里拿着的皮影
短发男孩手里拿着的皮影

视觉对话

给出图片及其描述，针对图片进行问答对话。

Caption: 蓝色桌垫上有许多食物
Q1: 桌上都有哪些食物? A1: 食物中有鸡蛋、包子、小菜、馒头和粥
Q2: 桌上的粥是哪种粥? A2: 桌上的粥是黑米粥 ......
Q10:桌面上的鸡蛋有几个? A10:桌面上有两个鸡蛋

评价指标

各子任务评测指标如下：

图文检索

评测指标选用召回 $ R@k（k取1，5，10）$。

$$ R@k=frac{正确结果在检索排名前 k 的样本个数}{全部样本个数} $$

视觉问答

评测指标为回答问题的准确率 $ Accuracy $。

$$ Accuracy=frac{正确回答个数}{全部问题个数} $$

视觉定位

评测指标基于重叠度 $ IoU $ ，选用图片对齐的准确率和 $ IoU $ 的均值。

$$ IoU=frac{预测区域和真实区域的交集面积}{预测区域和真实区域的并集面积} $$ $$ IoU_{Accuracy}=frac{预测结果 IoU 超过 0.5 的样本数量}{全部定位样本数量} $$ $$ overline{IoU}=frac{全部预测结果的 IoU 之和}{全部定位样本数量} $$

视觉对话

评测指标选用召回 $ R@k（k取1，5，10）$。

$$ R@k=frac{正确结果在检索排名前 k 的样本个数}{全部样本个数} $$

参赛模型的最终评测成绩取上述所有评价指标的宏平均值。

AI搜集汇总

数据集介绍

构建方式

CVLUE数据集的构建方式以中文文化和日常生活为背景，确保了源图像的代表性和文化相关性。首先，通过中文母语者选择代表性的物体类别，然后从中国互联网上手动收集所有图像，确保图像真实且无水印，且包含两个以上物体，以符合中国文化的常见性。数据集包含四个视觉语言任务，包括图像-文本检索、视觉问答、视觉定位和视觉对话。数据收集和标注过程经过严格的质量控制，包括两次筛选和训练标注者，确保标注的准确性和一致性。

特点

CVLUE数据集的特点在于其对中国文化的全面代表性和任务的多样性。数据集包含92个物体类别，涵盖15个语义领域，其中22个类别未在英语WordNet中出现，与中国文化密切相关。数据集平均每张图像标注6.3个物体，比ImageNet和PASCAL VOC等数据集更多。此外，CVLUE数据集的平均标题长度为19.2个字符，比其他中文数据集更长，且分布更加均匀。视觉定位任务中，每张图像平均有3.38个指向表达，描述3.38个物体，比RefCOCOg等英语数据集更多。

使用方法

CVLUE数据集的使用方法包括图像-文本检索、视觉问答、视觉定位和视觉对话四个任务。对于每个任务，都有详细的标注指南和示例。图像-文本检索任务包括文本检索和图像检索两个子任务，视觉问答任务要求模型根据图像和问题生成正确答案，视觉定位任务要求模型定位指向表达指定的物体，视觉对话任务则评估模型的视觉理解、记忆和语言生成能力。使用数据集时，可以根据任务类型选择相应的图像子集，并按照标注指南进行标注和评估。

背景与挑战

背景概述

随着计算机视觉与自然语言处理领域的迅速发展，视觉语言模型（VLMs）在理解图像和文本之间的复杂关系方面取得了显著进展。然而，现有的视觉语言（VL）数据集大多基于西方文化背景的图像，这些数据集的文化偏见使得它们在评估中文视觉语言模型时显得不够合适。为了解决这一问题，Yuxuan Wang等人于2024年提出了一个新的中文视觉语言理解评估（CVLUE）基准数据集。该数据集的图像选择完全由中文母语者驱动，确保了图像内容能够代表中国文化。CVLUE包含从图像文本检索到视觉问答、视觉定位和视觉对话在内的四个不同的VL任务。通过在CVLUE及其英文对应数据集上对多个开源多语言VLMs进行基准性能分析，研究人员揭示了这些模型在英文和中文视觉语言理解方面的性能差距，并指出了现有VLMs缺乏中国文化知识的问题。此外，研究发现，在与中国文化相关的VL数据集上进行微调可以有效提升VLMs对中国文化的理解能力。

当前挑战

CVLUE数据集的创建旨在解决现有VL数据集的文化偏见问题，并为中国视觉语言模型提供一个公正的评价平台。然而，构建这样一个数据集面临着一些挑战。首先，需要确保图像和文本数据能够准确代表中国文化，这要求数据收集者对中国文化有深入的理解。其次，构建过程中需要解决不同任务之间的平衡问题，以确保数据集的多样性和全面性。此外，由于资源限制，目前只能测试部分VLMs，并且无法对大型模型进行微调，这可能导致实验结果无法完全反映模型的潜力。尽管如此，CVLUE数据集的创建为中国视觉语言模型的发展提供了一个重要的基准，并为进一步研究和开发提供了方向。

常用场景

经典使用场景

CVLUE数据集旨在全面评估中文视觉语言模型（VLMs）在中文文化背景下的视觉语言理解能力。该数据集包含从图像文本检索到视觉问答、视觉定位和视觉对话四种不同的视觉语言任务，为研究人员提供了一个全面的评估平台。通过对比CVLUE数据集和现有英文视觉语言数据集上的多语言VLMs表现，揭示了这些模型在处理中文文化相关任务时的性能差距。此外，通过对数据集中不同类别的深入分析，发现了现有VLMs在中文文化相关知识方面的不足，并验证了在中文文化相关视觉语言数据集上进行微调可以有效地提升VLMs对中文文化的理解能力。

衍生相关工作

CVLUE数据集的发布推动了中文视觉语言模型的发展。基于CVLUE数据集，研究人员可以开发新的VLMs，并通过在CVLUE数据集上进行训练和评估，提升VLMs的中文文化理解能力。此外，CVLUE数据集还可以用于开发新的中文视觉语言任务，如视觉推理、视觉对话等，从而推动中文视觉语言研究的深入发展。

数据集最近研究

相关研究论文

1
CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation浙江实验室, 哈尔滨工业大学 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

Global Volcanism Program (GVP)

该数据集包含了全球火山活动的详细信息，包括火山的位置、类型、历史喷发记录、喷发频率等。数据集还提供了关于火山活动的研究报告和相关文献的链接。

volcano.si.edu 收录

中国车牌识别数据集（7类，33万张）

这是一个高质量、平衡的中国车牌识别数据集，包含了33万张各类中国车牌的图片。数据集经过精心设计，确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。

魔搭社区收录