SEACrowd/m3exam

Name: SEACrowd/m3exam
Creator: SEACrowd
Published: 2024-06-24 13:31:58
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/m3exam

下载链接

链接失效反馈

官方服务：

资源简介：

M3Exam 是一个新颖的基准测试数据集，源自真实和官方的人类考试题目，用于在多语言、多模态和多层次的背景下评估大型语言模型（LLMs）。该数据集包含 12,317 道题目，涵盖 9 种不同的语言和三个教育水平，其中约 23% 的题目需要处理图像才能成功解答。M3Exam 数据集涵盖了东南亚地区使用的三种语言。

提供机构：

SEACrowd

原始信息汇总

M3Exam 数据集概述

数据集简介

M3Exam 是一个从真实和官方的人类考试题目中提取的新基准，用于在多语言、多模态和多层次的背景下评估大型语言模型（LLMs）。该数据集包含 12,317 个问题，涵盖 9 种不同的语言，并分为三个教育水平。其中约 23% 的问题需要处理图像才能成功解答。M3Exam 数据集涵盖了东南亚地区使用的 3 种语言。

语言

支持的任务

问答（Question Answering）
视觉问答（Visual Question Answering）

数据集版本

源版本：1.0.0
SEACrowd 版本：2024.06.20

数据集许可证

Creative Commons Attribution Non Commercial Share Alike 4.0 (cc-by-nc-sa-4.0)

引用

如果使用 M3Exam 数据集，请引用以下文献：

@article{zhang2023m3exam, title={M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models}, author={Wenxuan Zhang and Sharifah Mahani Aljunied and Chang Gao and Yew Ken Chia and Lidong Bing}, year={2023}, eprint={2306.05179}, archivePrefix={arXiv}, primaryClass={cs.CL} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

M3Exam数据集的构建，旨在模拟真实的人类考试环境，以评估大型语言模型在多语言、多模态和多级别语境下的表现。该数据集汇集了来自官方考试的真实问题，包含九种不同语言，三个教育层次，总计12,317个问题，其中约23%的问题需要处理图像才能成功解答。

特点

M3Exam数据集具有显著的多语言特性，涵盖了东南亚地区通用的三种语言：爪哇语、泰语和越南语。它支持问答和视觉问答两种任务类型，并提供了一个新颖的多模态、多级别基准，适用于评估大型语言模型的性能。

使用方法

使用M3Exam数据集，用户可以通过`datasets`库或`seacrowd`库来加载。通过`datasets`库，只需一行代码即可加载整个数据集；通过`seacrowd`库，用户可以根据特定的配置名称来加载数据集，同时可以查看所有可用的子集配置。详细的加载方法和使用指南可在相关库的官方文档中找到。

背景与挑战

背景概述

M3Exam数据集，作为一项创新的基准，源自真实且官方的人类考试问题，旨在多语言、多模态及多层次的环境中评估大型语言模型（LLM）的性能。该数据集由DAMO-NLP-SG团队于2023年创建，包含9种不同语言共12,317个问题，涵盖了三个教育层次，其中约23%的问题需要处理图像以成功解答。M3Exam数据集覆盖了东南亚地区使用的三种语言，为语言处理领域提供了重要的多语言及多模态研究资源。

当前挑战

M3Exam数据集在构建过程中面临的挑战主要涉及多语言、多模态数据的收集与处理。首先，多语言数据的收集需确保语言多样性的同时，还需保持问题质量和教育价值的统一性。其次，多模态问题中图像与文本的结合，要求在数据标注和模型评估上采取更为复杂的方法。此外，数据集在解决领域问题，如多语言问答和视觉问答方面，面临着如何平衡不同语言和模态之间的性能差异，以及如何有效融合多源异构信息以提升模型综合理解能力的挑战。

常用场景

经典使用场景

在人工智能领域，尤其是自然语言处理的研究与应用中，M3Exam数据集以其独特的多语言、多模态及多层次特性，成为评估大型语言模型能力的典范。该数据集源自真实的人类考试问题，涵盖了九种不同的语言，其中约23%的问题需要处理图像才能成功解答，使得它成为研究和测试多模态问题回答系统的重要资源。

解决学术问题

M3Exam数据集解决了多语言环境中模型评估的难题，为学术界提供了一个统一的标准，以衡量模型在处理东南亚地区语言时的问题回答能力。它的出现，不仅丰富了视觉问题回答领域的数据资源，还推动了大型语言模型在教育评估中的应用，对于提升模型的跨语言和跨模态理解能力具有重要的研究意义。

衍生相关工作

M3Exam数据集的发布，激发了一系列相关的研究工作。学者们基于这一数据集，开展了关于多语言多模态学习、教育评估模型以及跨文化智能系统的研究，推动了人工智能领域在理论和应用层面的深入发展。这些衍生工作不仅拓宽了M3Exam数据集的应用范围，也为未来的研究提供了新的视角和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集