floschne/multimodal-m3exam

Name: floschne/multimodal-m3exam
Creator: floschne
Published: 2024-05-22 10:08:24
License: 暂无描述

Hugging Face2024-05-22 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/floschne/multimodal-m3exam

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-Modal M3Exam数据集是一个多语言、多模态、多层次的基准数据集，用于测试大型语言模型。数据集包含多模态问题，涉及多种语言和学科。数据集的特征包括问题文本、背景描述、答案文本、选项、是否需要图像、语言、级别、学科、学科类别、年份、图像ID和图像。数据集分为多个语言子集，如意大利语、爪哇语、南非荷兰语、泰语、中文、斯瓦希里语、葡萄牙语、越南语和英语。每个子集的大小和示例数量也有所不同。数据集的任务类别是视觉问答，支持多种语言。数据集的创建是为了解决原始仓库中的问题，并简化访问。数据集还包括图像特征，并具有统一的结构。

提供机构：

floschne

原始信息汇总

Multi-Modal M3Exam 数据集概述

数据集特征

基本特征

question_text: 字符串类型
background_description: 字符串序列类型
answer_text: 字符串类型
options: 字符串序列类型
need_image: 字符串类型
language: 字符串类型
level: 字符串类型
subject: 字符串类型
subject_category: 字符串类型
year: 字符串类型
image_ids: 字符串序列类型

图像相关特征

images: 列表类型，包含以下子特征
- bytes: 二进制类型
- path: 空值类型

数据集分割

数据集根据不同语言分割，每个分割包含的示例数量和字节数如下：

italian: 407个示例，56350406字节
javanese: 5个示例，181707字节
afrikaans: 163个示例，28552878字节
thai: 401个示例，112113903字节
chinese: 453个示例，43661702字节
swahili: 4个示例，96790字节
portuguese: 452个示例，44423012字节
vietnamese: 116个示例，7009517字节
english: 795个示例，78893609字节

数据集大小

下载大小: 248223963字节
数据集大小: 371283524字节

任务类别

visual-question-answering

语言支持

it (意大利语)
th (泰语)
en (英语)
jv (爪哇语)
sw (斯瓦希里语)
vi (越南语)
zh (中文)
pt (葡萄牙语)
af (阿非利卡语)

数据集名称

Multi-Modal M3Exam

数据集大小类别

1K<n<10K

搜集汇总

数据集介绍

构建方式

在跨语言多模态智能评估领域，Multi-Modal M3Exam数据集的构建体现了严谨的学术流程。该数据集源自原始M3Exam研究，专门提取了其中的多模态问题部分。构建过程通过解析多种语言的问题文本，利用正则表达式精准识别并关联嵌入在题目、选项及背景描述中的图像标识符。随后，系统从对应语种的图像库中加载并编码图像数据，确保每道题目与其视觉内容准确匹配。最终，经过数据清洗与格式统一，形成了涵盖九种语言、结构规整的多模态问答数据集。

使用方法

为有效利用此数据集，研究者可通过Hugging Face的`datasets`库直接加载。鉴于数据集存储格式的特殊性，加载后需执行一个额外的映射步骤，将二进制图像数据解码为标准的`PIL.Image.Image`对象，以便于后续处理。该数据集主要适用于视觉问答任务，可用于训练或评估多模态大语言模型在跨语言场景下的图文理解与推理能力。使用时应遵循学术规范，引用原始论文以尊重作者贡献。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，多模态理解能力成为关键瓶颈。为系统评估大型语言模型在复杂、真实场景下的认知水平，2023年，由新加坡科技研究局（A*STAR）下属的DAMO-NLP团队主导，联合多位学者共同创建了M3Exam数据集。该数据集旨在构建一个多语言、多模态、多层次的标准化评测基准，其核心研究问题聚焦于探究模型如何融合文本与视觉信息以解答跨学科考试题目。这一开创性工作为衡量模型的综合推理与知识应用能力提供了重要标尺，显著推动了多模态人工智能评估领域的发展。

当前挑战

该数据集致力于解决多模态视觉问答领域的核心挑战，即要求模型精准理解图文交织的复杂语境，并执行跨学科的深度推理。其构建过程面临多重技术难题：原始数据中图像标识符格式不一，需通过复杂正则表达式进行清洗与归一化；部分语言版本存在图像文件缺失或背景描述字段异常，需设计鲁棒的容错与类型转换机制；此外，受限于底层库的缺陷，图像数据无法以标准格式直接存储，必须实现特定的编解码流程，这增加了数据预处理与加载的复杂性。

常用场景

经典使用场景

在跨模态智能研究领域，Multi-Modal M3Exam数据集为视觉问答任务提供了多语言、多模态的基准测试平台。该数据集整合了文本问题、背景描述与图像信息，覆盖数学、科学等多个学科，其经典应用场景在于评估大型语言模型在图文结合情境下的推理与解答能力。研究者通过该数据集能够系统检验模型对复杂多模态信息的理解深度，尤其在处理需要视觉线索辅助的学术问题时，数据集提供了标准化的评估框架。

解决学术问题

该数据集有效应对了多模态人工智能研究中长期存在的挑战，即如何量化模型在跨语言、跨模态场景下的综合认知水平。它通过提供结构化的多语言图文对，解决了以往基准测试中模态单一、语言覆盖有限的缺陷，使得研究者能够深入探究模型在融合视觉与文本信息时的泛化能力与偏差问题。其意义在于推动了多模态推理模型的标准化评估，为构建更公平、全面的智能系统评测体系奠定了数据基础。

实际应用

在实际应用层面，Multi-Modal M3Exam数据集可服务于智能教育系统的开发，例如构建自适应学习平台，该系统能够根据学生的多模态输入提供个性化辅导。此外，在跨语言客服机器人、多媒体内容审核等场景中，数据集支持训练模型理解图文混合的查询或内容，提升人机交互的自然性与准确性。其多语言特性尤其有助于开发面向全球用户的应用程序，促进技术在不同文化语境中的普及与适配。

数据集最近研究