lmms-lab/MMBench_CN
收藏Hugging Face2024-03-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/lmms-lab/MMBench_CN
下载链接
链接失效反馈官方服务:
资源简介:
这是一个MMBench中文子集的格式化版本,用于`lmms-eval`管道中以评估大规模多模态模型。数据集包含两个配置:chinese_culture和default,每个配置都有不同的特征和分割。
这是一个MMBench中文子集的格式化版本,用于`lmms-eval`管道中以评估大规模多模态模型。数据集包含两个配置:chinese_culture和default,每个配置都有不同的特征和分割。
提供机构:
lmms-lab
原始信息汇总
数据集概述
数据集配置
配置名称:chinese_culture
- 特征列表:
index: 类型int32question: 类型stringimage: 类型imageA: 类型stringB: 类型stringC: 类型stringD: 类型stringanswer: 类型stringcategory: 类型stringsource: 类型string
- 分割:
test: 字节数55546140.0, 样本数2176
- 下载大小:
54795762 - 数据集大小:
55546140.0
配置名称:default
- 特征列表:
index: 类型int32question: 类型stringimage: 类型imagehint: 类型stringA: 类型stringB: 类型stringC: 类型stringD: 类型stringanswer: 类型stringcategory: 类型stringsource: 类型stringL2-category: 类型stringcomment: 类型stringsplit: 类型string
- 分割:
dev: 字节数102763038.0, 样本数4329test: 字节数148195795.0, 样本数6666
- 下载大小:
238168349 - 数据集大小:
250958833.0
数据文件
配置名称:chinese_culture
- 分割:
test: 路径chinese_culture/test-*
配置名称:default
- 分割:
dev: 路径data/dev-*test: 路径data/test-*
搜集汇总
数据集介绍

构建方式
在视觉语言模型评估领域,MMBench_CN数据集作为MMBench基准的中文子集,其构建过程体现了严谨的学术规范。该数据集通过精心设计的流程,从广泛的真实场景中收集了多模态样本,每个样本均包含图像、问题文本及多个候选答案。构建者依据预定义的知识类别对样本进行系统化分类与标注,确保了数据在语义和视觉维度上的丰富性与平衡性。最终形成的结构化数据,为评估模型在中文语境下的综合认知能力提供了坚实基石。
特点
该数据集的核心特点在于其针对中文文化与通用场景的双重覆盖,通过‘chinese_culture’与‘default’两种配置呈现。数据集样本结构清晰,每个条目均整合了图像、问题、四个选项及标准答案,并附有详细的类别与来源元数据。其规模可观,测试集样本量合计超过八千条,涵盖了从细粒度物体识别到复杂场景推理的多元任务。这种设计使得该数据集能够全面、细致地检验多模态模型在中文环境下的感知、理解与推理性能。
使用方法
该数据集专为集成于‘lmms-eval’评估流水线而设计,旨在实现大规模多模态模型的一键式自动化评估。使用者可通过加载指定的配置名称(如‘default’或‘chinese_culture’)来访问不同的数据子集。典型的应用流程包括:加载数据集、获取包含图像和文本的问题样本、将样本输入待评估的多模态模型、收集模型的预测输出,并与数据集中提供的标准答案进行比对,从而量化模型在多项选择题任务上的准确率等性能指标,为模型迭代与研究提供客观依据。
背景与挑战
背景概述
随着多模态人工智能技术的迅猛发展,评估大型多模态模型在复杂场景下的综合能力成为研究的关键。MMBench_CN数据集由lmms-lab团队于2023年构建,作为MMBench的中文子集,旨在系统评估模型在中文文化语境下的多模态理解与推理能力。该数据集涵盖了图像与文本的交互任务,核心研究问题聚焦于模型在跨模态对齐、语义融合及文化特定知识处理方面的表现,为推进多模态模型的本土化应用与标准化评测提供了重要基准。
当前挑战
该数据集致力于解决多模态模型在中文文化背景下的综合评估挑战,包括模型对文化特定元素的理解、跨模态语义对齐的准确性以及复杂推理任务的泛化能力。在构建过程中,挑战主要源于高质量中文多模态数据的稀缺性,需确保图像与文本标注在文化相关性上的精确匹配,同时平衡任务难度与数据多样性,以覆盖从基础感知到高级推理的广泛能力维度。
常用场景
经典使用场景
在视觉语言模型评估领域,MMBench_CN数据集作为一项权威基准,其经典使用场景聚焦于全面评估多模态模型的中文理解与推理能力。该数据集通过精心设计的图像与文本问题对,系统考察模型在跨模态信息融合、场景解析以及逻辑推断等方面的表现,为研究者提供了标准化的评测框架,以衡量模型在复杂中文语境下的综合性能。
实际应用
在实际应用层面,MMBench_CN数据集为开发面向中文用户的多模态智能系统提供了关键支撑。它可用于评测和优化智能助手、内容审核工具以及教育技术产品中的视觉语言模块,确保这些系统能够准确理解中文语境下的图文信息,从而提升其在真实场景中的实用性与可靠性。
衍生相关工作
围绕MMBench_CN数据集,学术界衍生了一系列重要的研究工作。这些工作不仅扩展了原始基准的评估维度,还催生了针对中文多模态任务的模型微调方法与新型架构探索。相关研究进一步深化了对模型跨语言迁移能力与文化适配性的理解,推动了中文多模态人工智能技术生态的持续演进。
以上内容由遇见数据集搜集并总结生成



