five

lmms-lab/MMBench_CN

收藏
Hugging Face2024-03-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/lmms-lab/MMBench_CN
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个MMBench中文子集的格式化版本,用于`lmms-eval`管道中以评估大规模多模态模型。数据集包含两个配置:chinese_culture和default,每个配置都有不同的特征和分割。

这是一个MMBench中文子集的格式化版本,用于`lmms-eval`管道中以评估大规模多模态模型。数据集包含两个配置:chinese_culture和default,每个配置都有不同的特征和分割。
提供机构:
lmms-lab
原始信息汇总

数据集概述

数据集配置

配置名称:chinese_culture

  • 特征列表
    • index: 类型 int32
    • question: 类型 string
    • image: 类型 image
    • A: 类型 string
    • B: 类型 string
    • C: 类型 string
    • D: 类型 string
    • answer: 类型 string
    • category: 类型 string
    • source: 类型 string
  • 分割
    • test: 字节数 55546140.0, 样本数 2176
  • 下载大小54795762
  • 数据集大小55546140.0

配置名称:default

  • 特征列表
    • index: 类型 int32
    • question: 类型 string
    • image: 类型 image
    • hint: 类型 string
    • A: 类型 string
    • B: 类型 string
    • C: 类型 string
    • D: 类型 string
    • answer: 类型 string
    • category: 类型 string
    • source: 类型 string
    • L2-category: 类型 string
    • comment: 类型 string
    • split: 类型 string
  • 分割
    • dev: 字节数 102763038.0, 样本数 4329
    • test: 字节数 148195795.0, 样本数 6666
  • 下载大小238168349
  • 数据集大小250958833.0

数据文件

配置名称:chinese_culture

  • 分割
    • test: 路径 chinese_culture/test-*

配置名称:default

  • 分割
    • dev: 路径 data/dev-*
    • test: 路径 data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型评估领域,MMBench_CN数据集作为MMBench基准的中文子集,其构建过程体现了严谨的学术规范。该数据集通过精心设计的流程,从广泛的真实场景中收集了多模态样本,每个样本均包含图像、问题文本及多个候选答案。构建者依据预定义的知识类别对样本进行系统化分类与标注,确保了数据在语义和视觉维度上的丰富性与平衡性。最终形成的结构化数据,为评估模型在中文语境下的综合认知能力提供了坚实基石。
特点
该数据集的核心特点在于其针对中文文化与通用场景的双重覆盖,通过‘chinese_culture’与‘default’两种配置呈现。数据集样本结构清晰,每个条目均整合了图像、问题、四个选项及标准答案,并附有详细的类别与来源元数据。其规模可观,测试集样本量合计超过八千条,涵盖了从细粒度物体识别到复杂场景推理的多元任务。这种设计使得该数据集能够全面、细致地检验多模态模型在中文环境下的感知、理解与推理性能。
使用方法
该数据集专为集成于‘lmms-eval’评估流水线而设计,旨在实现大规模多模态模型的一键式自动化评估。使用者可通过加载指定的配置名称(如‘default’或‘chinese_culture’)来访问不同的数据子集。典型的应用流程包括:加载数据集、获取包含图像和文本的问题样本、将样本输入待评估的多模态模型、收集模型的预测输出,并与数据集中提供的标准答案进行比对,从而量化模型在多项选择题任务上的准确率等性能指标,为模型迭代与研究提供客观依据。
背景与挑战
背景概述
随着多模态人工智能技术的迅猛发展,评估大型多模态模型在复杂场景下的综合能力成为研究的关键。MMBench_CN数据集由lmms-lab团队于2023年构建,作为MMBench的中文子集,旨在系统评估模型在中文文化语境下的多模态理解与推理能力。该数据集涵盖了图像与文本的交互任务,核心研究问题聚焦于模型在跨模态对齐、语义融合及文化特定知识处理方面的表现,为推进多模态模型的本土化应用与标准化评测提供了重要基准。
当前挑战
该数据集致力于解决多模态模型在中文文化背景下的综合评估挑战,包括模型对文化特定元素的理解、跨模态语义对齐的准确性以及复杂推理任务的泛化能力。在构建过程中,挑战主要源于高质量中文多模态数据的稀缺性,需确保图像与文本标注在文化相关性上的精确匹配,同时平衡任务难度与数据多样性,以覆盖从基础感知到高级推理的广泛能力维度。
常用场景
经典使用场景
在视觉语言模型评估领域,MMBench_CN数据集作为一项权威基准,其经典使用场景聚焦于全面评估多模态模型的中文理解与推理能力。该数据集通过精心设计的图像与文本问题对,系统考察模型在跨模态信息融合、场景解析以及逻辑推断等方面的表现,为研究者提供了标准化的评测框架,以衡量模型在复杂中文语境下的综合性能。
实际应用
在实际应用层面,MMBench_CN数据集为开发面向中文用户的多模态智能系统提供了关键支撑。它可用于评测和优化智能助手、内容审核工具以及教育技术产品中的视觉语言模块,确保这些系统能够准确理解中文语境下的图文信息,从而提升其在真实场景中的实用性与可靠性。
衍生相关工作
围绕MMBench_CN数据集,学术界衍生了一系列重要的研究工作。这些工作不仅扩展了原始基准的评估维度,还催生了针对中文多模态任务的模型微调方法与新型架构探索。相关研究进一步深化了对模型跨语言迁移能力与文化适配性的理解,推动了中文多模态人工智能技术生态的持续演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作