five

OpenDFM/MULTI-Benchmark

收藏
Hugging Face2025-10-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/OpenDFM/MULTI-Benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
MULTI-Benchmark是一个中文多模态理解排行榜,包含图像和文本,由真实考试问题构成,用于评估模型在图像文本理解、复杂推理和知识回忆方面的能力。

MULTI-Benchmark is a Chinese multimodal understanding leaderboard consisting of images and text, derived from real examination questions, designed to evaluate models capabilities in image-text comprehension, complex reasoning, and knowledge recall.
提供机构:
OpenDFM
原始信息汇总

数据集概述

数据集名称

MULTI

数据集目的

用于评估多模态大型语言模型(MLLMs)在理解复杂表格和图像,以及长上下文推理方面的能力。

数据集特点

  • 包含超过18,000个问题,涵盖从公式推导到图像细节分析和跨模态推理等多种任务。
  • 提供多模态输入,要求回答既可以是精确的也可以是开放式的,反映实际考试风格。
  • 引入两个子集:MULTI-Elite(精选的500个难题)和MULTI-Extend(超过4,500个外部知识上下文片段)。

数据集性能

  • GPT-4V在MULTI上的准确率为63.7%,其他MLLMs的得分范围为28.5%至55.3%。

数据集应用

不仅作为评估平台,还为专家级AI的开发铺平道路。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作