CVLUE|视觉语言理解数据集|中国文化数据集
收藏CCL24-Eval 中文图文多模态理解评测任务
任务介绍
中文图文多模态理解评测(Chinese Vision-Language Understanding Evaluation,CVLUE)任务旨在从以下四个任务多角度评价中文图文多模态预训练模型的图文多模态建模和理解能力:
- 图片检索(Image Retrieval)
- 文本检索(Text Retrieval)
- 视觉问答(Visual Question Answering)
- 视觉定位(Visual Grounding)
- 视觉对话(Visual Dialog)
评测数据
本任务包含以下15大类、92小类的图片,图片内容为中国文化环境中具有代表性或日常生活常见:
大类 | 小类 | 小类数量 |
---|---|---|
动物 | 大熊猫,牛,鱼,狗,马,鸡,鼠,鸟,人,猫 | 10 |
食物 | 火锅,米饭,饺子,面条,包子 | 5 |
饮品 | 奶茶,可乐,牛奶,茶,粥,酒 | 6 |
衣服 | 汉服,唐装,旗袍,西装,T恤 | 5 |
植物 | 柳树,银杏,梧桐,白桦,松树,菊花,牡丹,兰科,莲,百合 | 10 |
水果 | 荔枝,山楂,苹果,哈密瓜,龙眼 | 5 |
蔬菜 | 小白菜,马铃薯,大白菜,胡萝卜,花椰菜 | 5 |
农业 | 锄头,犁,耙,镰刀,担杖 | 5 |
工具 | 汤勺,碗,砧板,筷子,炒锅,扇子,菜刀,锅铲 | 8 |
家具 | 电视,桌子,椅子,冰箱,灶台 | 5 |
运动 | 乒乓球,篮球,游泳,足球,跑步 | 5 |
庆典 | 舞狮,龙舟,国旗,月饼,春联,花灯 | 6 |
教育用品 | 铅笔,黑板,毛笔,粉笔,原子笔,剪刀 | 6 |
乐器 | 古筝,二胡,唢呐,鼓,琵琶 | 5 |
艺术 | 书法,皮影,剪纸,秦始皇兵马俑,鼎,陶瓷 | 6 |
数据样例
图文检索
每张图片有 5 条各不相同的描述。
对应的描述为:
- 桌子中间摆放着火锅
- 两种口味的火锅摆放在木质的桌子上
- 一个辣的和一个菌汤锅底的火锅放在桌上
- 火锅四周摆满了涮火锅用的蔬菜、肉、丸子等食材
- 桌子中间摆放着两个口味的火锅,周围的陶瓷碗里盛放着涮火锅用的食材
视觉问答
针对图片提问,并作出回答。
针对图片的问答为:
- Q: 龙舟划向什么方位?<br>A: 右方
- Q: 有几支队伍在划龙舟?<br>A: 5
- Q: 大多数人的姿势是站立还是坐着?<br>A: 坐着
视觉定位
给出图片中,部分实体的描述,并给出其对应的 bounding box。
实体的描述:
- 戴眼镜女孩手里拿着的皮影
- 短发男孩手里拿着的皮影
视觉对话
给出图片及其描述,针对图片进行问答对话。
- Caption: 蓝色桌垫上有许多食物<br>
- Q1: 桌上都有哪些食物?<br>A1: 食物中有鸡蛋、包子、小菜、馒头和粥
- Q2: 桌上的粥是哪种粥?<br>A2: 桌上的粥是黑米粥<br> ......
- Q10:桌面上的鸡蛋有几个?<br>A10:桌面上有两个鸡蛋
评价指标
各子任务评测指标如下:
图文检索
评测指标选用召回 $ R@k(k取1,5,10)$。
$$ R@k=frac{正确结果在检索排名前 k 的样本个数}{全部样本个数} $$
视觉问答
评测指标为回答问题的准确率 $ Accuracy $。
$$ Accuracy=frac{正确回答个数}{全部问题个数} $$
视觉定位
评测指标基于重叠度 $ IoU $ ,选用图片对齐的准确率和 $ IoU $ 的均值。
$$ IoU=frac{预测区域和真实区域的交集面积}{预测区域和真实区域的并集面积} $$ $$ IoU_{Accuracy}=frac{预测结果 IoU 超过 0.5 的样本数量}{全部定位样本数量} $$ $$ overline{IoU}=frac{全部预测结果的 IoU 之和}{全部定位样本数量} $$
视觉对话
评测指标选用召回 $ R@k(k取1,5,10)$。
$$ R@k=frac{正确结果在检索排名前 k 的样本个数}{全部样本个数} $$
参赛模型的最终评测成绩取上述所有评价指标的宏平均值。

- 1CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation浙江实验室, 哈尔滨工业大学 · 2024年
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
Global Volcanism Program (GVP)
该数据集包含了全球火山活动的详细信息,包括火山的位置、类型、历史喷发记录、喷发频率等。数据集还提供了关于火山活动的研究报告和相关文献的链接。
volcano.si.edu 收录
中国车牌识别数据集(7类,33万张)
这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。
魔搭社区 收录