lmms-lab/MMBench_CN

Name: lmms-lab/MMBench_CN
Creator: lmms-lab
Published: 2024-03-08 04:59:07
License: 暂无描述

Hugging Face2024-03-08 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/lmms-lab/MMBench_CN

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个MMBench中文子集的格式化版本，用于`lmms-eval`管道中以评估大规模多模态模型。数据集包含两个配置：chinese_culture和default，每个配置都有不同的特征和分割。

提供机构：

lmms-lab

原始信息汇总

数据集概述

数据集配置

配置名称：chinese_culture

特征列表：
- index: 类型 int32
- question: 类型 string
- image: 类型 image
- A: 类型 string
- B: 类型 string
- C: 类型 string
- D: 类型 string
- answer: 类型 string
- category: 类型 string
- source: 类型 string
分割：
- test: 字节数 55546140.0, 样本数 2176
下载大小：54795762
数据集大小：55546140.0

配置名称：default

特征列表：
- index: 类型 int32
- question: 类型 string
- image: 类型 image
- hint: 类型 string
- A: 类型 string
- B: 类型 string
- C: 类型 string
- D: 类型 string
- answer: 类型 string
- category: 类型 string
- source: 类型 string
- L2-category: 类型 string
- comment: 类型 string
- split: 类型 string
分割：
- dev: 字节数 102763038.0, 样本数 4329
- test: 字节数 148195795.0, 样本数 6666
下载大小：238168349
数据集大小：250958833.0

数据文件

配置名称：chinese_culture

分割：
- test: 路径 chinese_culture/test-*

配置名称：default

分割：
- dev: 路径 data/dev-*
- test: 路径 data/test-*

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，MMBench_CN数据集作为MMBench基准的中文子集，其构建过程体现了严谨的学术规范。该数据集通过精心设计的流程，从广泛的真实场景中收集了多模态样本，每个样本均包含图像、问题文本及多个候选答案。构建者依据预定义的知识类别对样本进行系统化分类与标注，确保了数据在语义和视觉维度上的丰富性与平衡性。最终形成的结构化数据，为评估模型在中文语境下的综合认知能力提供了坚实基石。

特点

该数据集的核心特点在于其针对中文文化与通用场景的双重覆盖，通过‘chinese_culture’与‘default’两种配置呈现。数据集样本结构清晰，每个条目均整合了图像、问题、四个选项及标准答案，并附有详细的类别与来源元数据。其规模可观，测试集样本量合计超过八千条，涵盖了从细粒度物体识别到复杂场景推理的多元任务。这种设计使得该数据集能够全面、细致地检验多模态模型在中文环境下的感知、理解与推理性能。

使用方法

该数据集专为集成于‘lmms-eval’评估流水线而设计，旨在实现大规模多模态模型的一键式自动化评估。使用者可通过加载指定的配置名称（如‘default’或‘chinese_culture’）来访问不同的数据子集。典型的应用流程包括：加载数据集、获取包含图像和文本的问题样本、将样本输入待评估的多模态模型、收集模型的预测输出，并与数据集中提供的标准答案进行比对，从而量化模型在多项选择题任务上的准确率等性能指标，为模型迭代与研究提供客观依据。

背景与挑战

背景概述

随着多模态人工智能技术的迅猛发展，评估大型多模态模型在复杂场景下的综合能力成为研究的关键。MMBench_CN数据集由lmms-lab团队于2023年构建，作为MMBench的中文子集，旨在系统评估模型在中文文化语境下的多模态理解与推理能力。该数据集涵盖了图像与文本的交互任务，核心研究问题聚焦于模型在跨模态对齐、语义融合及文化特定知识处理方面的表现，为推进多模态模型的本土化应用与标准化评测提供了重要基准。

当前挑战

该数据集致力于解决多模态模型在中文文化背景下的综合评估挑战，包括模型对文化特定元素的理解、跨模态语义对齐的准确性以及复杂推理任务的泛化能力。在构建过程中，挑战主要源于高质量中文多模态数据的稀缺性，需确保图像与文本标注在文化相关性上的精确匹配，同时平衡任务难度与数据多样性，以覆盖从基础感知到高级推理的广泛能力维度。

常用场景

经典使用场景

在视觉语言模型评估领域，MMBench_CN数据集作为一项权威基准，其经典使用场景聚焦于全面评估多模态模型的中文理解与推理能力。该数据集通过精心设计的图像与文本问题对，系统考察模型在跨模态信息融合、场景解析以及逻辑推断等方面的表现，为研究者提供了标准化的评测框架，以衡量模型在复杂中文语境下的综合性能。

实际应用

在实际应用层面，MMBench_CN数据集为开发面向中文用户的多模态智能系统提供了关键支撑。它可用于评测和优化智能助手、内容审核工具以及教育技术产品中的视觉语言模块，确保这些系统能够准确理解中文语境下的图文信息，从而提升其在真实场景中的实用性与可靠性。

衍生相关工作

围绕MMBench_CN数据集，学术界衍生了一系列重要的研究工作。这些工作不仅扩展了原始基准的评估维度，还催生了针对中文多模态任务的模型微调方法与新型架构探索。相关研究进一步深化了对模型跨语言迁移能力与文化适配性的理解，推动了中文多模态人工智能技术生态的持续演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集