OpenDFM/MULTI-Benchmark

Name: OpenDFM/MULTI-Benchmark
Creator: OpenDFM
Published: 2025-10-16 09:11:46
License: 暂无描述

Hugging Face2025-10-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/OpenDFM/MULTI-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

MULTI-Benchmark是一个中文多模态理解排行榜，包含图像和文本，由真实考试问题构成，用于评估模型在图像文本理解、复杂推理和知识回忆方面的能力。

MULTI-Benchmark is a Chinese multimodal understanding leaderboard consisting of images and text, derived from real examination questions, designed to evaluate models capabilities in image-text comprehension, complex reasoning, and knowledge recall.

提供机构：

OpenDFM

原始信息汇总

数据集概述

数据集名称

MULTI

数据集目的

用于评估多模态大型语言模型（MLLMs）在理解复杂表格和图像，以及长上下文推理方面的能力。

数据集特点

包含超过18,000个问题，涵盖从公式推导到图像细节分析和跨模态推理等多种任务。
提供多模态输入，要求回答既可以是精确的也可以是开放式的，反映实际考试风格。
引入两个子集：MULTI-Elite（精选的500个难题）和MULTI-Extend（超过4,500个外部知识上下文片段）。

数据集性能

GPT-4V在MULTI上的准确率为63.7%，其他MLLMs的得分范围为28.5%至55.3%。

数据集应用

不仅作为评估平台，还为专家级AI的开发铺平道路。

5,000+

优质数据集

54 个

任务类型

进入经典数据集