OpenDFM/MULTI-Benchmark
收藏Hugging Face2025-10-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/OpenDFM/MULTI-Benchmark
下载链接
链接失效反馈官方服务:
资源简介:
MULTI-Benchmark是一个中文多模态理解排行榜,包含图像和文本,由真实考试问题构成,用于评估模型在图像文本理解、复杂推理和知识回忆方面的能力。
MULTI-Benchmark is a Chinese multimodal understanding leaderboard consisting of images and text, derived from real examination questions, designed to evaluate models capabilities in image-text comprehension, complex reasoning, and knowledge recall.
提供机构:
OpenDFM
原始信息汇总
数据集概述
数据集名称
MULTI
数据集目的
用于评估多模态大型语言模型(MLLMs)在理解复杂表格和图像,以及长上下文推理方面的能力。
数据集特点
- 包含超过18,000个问题,涵盖从公式推导到图像细节分析和跨模态推理等多种任务。
- 提供多模态输入,要求回答既可以是精确的也可以是开放式的,反映实际考试风格。
- 引入两个子集:MULTI-Elite(精选的500个难题)和MULTI-Extend(超过4,500个外部知识上下文片段)。
数据集性能
- GPT-4V在MULTI上的准确率为63.7%,其他MLLMs的得分范围为28.5%至55.3%。
数据集应用
不仅作为评估平台,还为专家级AI的开发铺平道路。



