SEACrowd/okapi_m_mmlu

Name: SEACrowd/okapi_m_mmlu
Creator: SEACrowd
Published: 2024-06-24 13:26:33
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/okapi_m_mmlu

下载链接

链接失效反馈

官方服务：

资源简介：

Okapi M Mmlu数据集是MMLU（大规模多任务语言理解）的多语言翻译版本，源自论文《Measuring Massive Multitask Language Understanding》（Hendrycks et al., 2021）。MMLU是一个包含来自多个知识领域的多项选择题的大规模多任务测试，涵盖人文学科、社会科学、硬科学等领域，共包含57个任务，如基础数学、美国历史、计算机科学、法律等。要在该测试中取得高准确率，模型需要具备广泛的世界知识和问题解决能力。该数据集支持印度尼西亚语（ind）和越南语（vie），主要任务为问答任务。数据集的使用方法包括使用`datasets`库和`seacrowd`库进行加载。数据集的版本信息包括源版本1.0.0和SEACrowd版本2024.06.20，许可证为Creative Commons Attribution Non Commercial 4.0 (cc-by-nc-4.0)。

The Okapi M Mmlu dataset is a multilingual translation of MMLU (Massive Multitask Language Understanding) from the paper Measuring Massive Multitask Language Understanding (Hendrycks et al., 2021). MMLU is a massive multitask test consisting of multiple-choice questions from various branches of knowledge, spanning subjects in the humanities, social sciences, hard sciences, and other areas, covering 57 tasks including elementary mathematics, US history, computer science, law, and more. To attain high accuracy on this test, models must possess extensive world knowledge and problem-solving ability. The dataset supports Indonesian (ind) and Vietnamese (vie) languages, with the primary task being question answering. The dataset can be loaded using the `datasets` library and the `seacrowd` library. The dataset version includes the source version 1.0.0 and the SEACrowd version 2024.06.20, licensed under Creative Commons Attribution Non Commercial 4.0 (cc-by-nc-4.0).

提供机构：

SEACrowd

原始信息汇总

Okapi M Mmlu 数据集概述

数据集简介

mMMLU 是 MMLU 的多语言翻译版本，源自论文 "Measuring Massive Multitask Language Understanding" (Hendrycks et al., 2021)。MMLU 是一个大规模的多任务测试，包含来自各个知识分支的多项选择题。测试涵盖人文、社会科学、自然科学及其他重要学习领域。MMLU 包含 57 个任务，包括初等数学、美国历史、计算机科学、法律等。

语言

印尼语 (ind)
越南语 (vie)

支持的任务

问答 (Question Answering)

数据集使用

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/okapi_m_mmlu", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("okapi_m_mmlu", schema="seacrowd")

查看数据集的所有可用子集（配置名称）

print(sc.available_config_names("okapi_m_mmlu"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集版本

源版本: 1.0.0
SEACrowd 版本: 2024.06.20

数据集许可证

Creative Commons Attribution Non Commercial 4.0 (cc-by-nc-4.0)

引用

plaintext @article{dac2023okapi, title={Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback}, author={Dac Lai, Viet and Van Nguyen, Chien and Ngo, Nghia Trung and Nguyen, Thuat and Dernoncourt, Franck and Rossi, Ryan A and Nguyen, Thien Huu}, journal={arXiv e-prints}, pages={arXiv--2307}, year={2023} }

@article{hendryckstest2021, title={Measuring Massive Multitask Language Understanding}, author={Dan Hendrycks and Collin Burns and Steven Basart and Andy Zou and Mantas Mazeika and Dawn Song and Jacob Steinhardt}, journal={Proceedings of the International Conference on Learning Representations (ICLR)}, year={2021} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言评估基准对于衡量模型跨语言理解能力至关重要。Okapi M Mmlu数据集基于MMLU基准构建，通过将原始的英文多选问题翻译为印尼语和越南语，形成多语言版本。该过程确保了翻译的准确性和文化适应性，覆盖了人文、社会科学、自然科学等57个学科领域，旨在评估模型在广泛知识领域的多任务理解能力。

特点

该数据集的核心特点在于其多语言覆盖与学科多样性。它不仅提供了印尼语和越南语两种东南亚语言版本，还继承了MMLU基准的全面性，涵盖从基础数学到法律等多个学科。这种设计使得数据集能够有效测试模型在不同语言和文化背景下的知识迁移与问题解决能力，为多语言人工智能研究提供了重要支撑。

使用方法

研究人员可通过`datasets`库或`seacrowd`库便捷加载该数据集。使用`datasets.load_dataset`函数并指定数据集名称即可获取完整数据；若需更精细控制，`seacrowd`库支持按配置名称加载特定子集。数据集适用于问答任务，用户可将其用于模型训练、评估或多语言能力基准测试，具体操作可参考SEACrowd数据中心的详细指南。

背景与挑战

背景概述

在自然语言处理领域，多语言大规模语言模型的评估一直是推动技术发展的关键环节。2021年，由Dan Hendrycks等人提出的MMLU数据集，作为一个涵盖57个学科的多选题测试集，旨在全面衡量模型的世界知识与问题解决能力。随后，SEACrowd团队于2024年发布了Okapi M Mmlu数据集，这是MMLU的多语言扩展版本，特别聚焦于印尼语和越南语，由SEACrowd项目组主导，旨在填补东南亚语言在语言理解评估方面的空白。该数据集的创建不仅延续了MMLU对模型综合认知能力的考察传统，还为多语言环境下的模型性能评估提供了重要基准，对促进语言技术的区域化应用具有显著影响力。

当前挑战

Okapi M Mmlu数据集面临的挑战主要体现在两个方面：在领域问题层面，它旨在解决多语言环境下大规模语言理解评估的复杂性，这要求模型不仅需掌握广泛学科知识，还需跨越语言障碍进行准确推理，从而对模型的跨语言泛化能力构成严峻考验；在构建过程中，挑战源于高质量多语言数据的稀缺性，尤其是在东南亚语言领域，确保翻译的准确性与文化适应性，同时维持原MMLU数据集的学术严谨性，成为数据集开发中的核心难点。

常用场景

经典使用场景

在自然语言处理领域，多语言模型的能力评估始终是研究焦点。Okapi M MMLU数据集作为MMLU的多语言扩展版本，其经典使用场景在于为印尼语和越南语等东南亚语言的大规模语言模型提供全面的知识理解基准测试。该数据集涵盖人文、社会科学、自然科学等57个学科的多选题，通过模拟真实世界知识问答，系统性地检验模型在跨语言语境下的推理与知识迁移能力，成为衡量模型多任务理解水平的重要工具。

实际应用

在实际应用层面，该数据集为东南亚地区本土化人工智能系统的开发提供了关键支撑。教育科技领域可基于其构建自适应语言学习平台，智能客服系统能借助该数据集优化多语言问答准确性。政府部门亦可通过此类基准提升公共服务机器人的文化适应性，而企业则能利用其评估商业智能工具在区域市场中的知识处理可靠性，促进技术落地与本土化创新。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多语言能力评测框架的构建。SEACrowd数据枢纽将其纳入东南亚语言基准套件，推动了区域语言技术生态发展。相关研究如Okapi项目利用该数据集进行指令调优与强化学习，探索低资源语言的对齐优化策略。同时，众多跨语言对比研究通过分析模型在该数据集上的表现差异，揭示了语言距离与知识迁移效率间的关联规律，为多语言模型架构设计提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集