SEACrowd/indommlu

Name: SEACrowd/indommlu
Creator: SEACrowd
Published: 2024-06-24 13:32:31
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/indommlu

下载链接

链接失效反馈

官方服务：

资源简介：

IndoMMLU是第一个针对印度尼西亚文化和语言的多任务语言理解基准测试，包含从小学到大学入学考试的题目。通过聘请专业教师，我们收集了63个任务和教育水平的14,906个问题，其中46%的问题专注于评估印度尼西亚语言能力以及对九种当地语言和文化的了解。数据集支持问答任务。

IndoMMLU is the first multi-task language understanding benchmark tailored for Indonesian culture and language, which includes questions spanning from primary school to university entrance examinations. We collected 14,906 questions across 63 tasks and educational levels by hiring professional teachers, among which 46% focus on evaluating Indonesian language proficiency as well as knowledge of nine local languages and cultures. This dataset supports question answering (QA) tasks.

提供机构：

SEACrowd

原始信息汇总

数据集概述

数据集名称

IndoMMLU

数据集描述

IndoMMLU 是首个针对印度尼西亚文化和语言的多任务语言理解基准测试，包含从小学到大学入学考试的问题。通过专业教师的参与，数据集涵盖了14,906个问题，分布在63个任务和教育水平中，其中46%的问题用于评估对印度尼西亚语及九种当地语言和文化的掌握程度。

语言

支持的任务

问答（Question Answering）

数据集版本

源版本：1.0.0
SEACrowd版本：2024.06.20

数据集许可证

Creative Commons Attribution Non Commercial Share Alike 4.0 (cc-by-nc-sa-4.0)

引用

如果使用 Indommlu 数据加载器，请引用以下内容：

@inproceedings{koto-etal-2023-large, title = "Large Language Models Only Pass Primary School Exams in {I}ndonesia: A Comprehensive Test on {I}ndo{MMLU}", author = "Koto, Fajri and Aisyah, Nurul and Li, Haonan and Baldwin, Timothy", editor = "Bouamor, Houda and Pino, Juan and Bali, Kalika", booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2023", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.emnlp-main.760", doi = "10.18653/v1/2023.emnlp-main.760", pages = "12359--12374", }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在探索印尼文化与语言理解的领域，SEACrowd/indommlu数据集应运而生。该数据集汇聚了来自印尼小学至大学入学考试的问题，涵盖了63个任务和教育层次，共计14,906个问题。通过聘请专业教师进行编写，其中46%的问题专注于评估印尼语及印尼九种地方语言和文化的熟练程度，构建了一个全面的语言理解基准。

使用方法

使用SEACrowd/indommlu数据集，研究者可通过HuggingFace提供的datasets库或seacrowd库轻松加载。通过调用相应的函数，用户可以获取数据集的完整或特定配置版本，进而开展语言理解的相关研究。详细的加载指南和配置选项，可参照数据集的官方文档和说明。

背景与挑战

背景概述

IndoMMLU作为首个面向印度尼西亚文化和语言的多元任务语言理解基准，汇集了从小学至大学入学考试的问题，旨在评估印尼语及九种当地语言和文化知识的熟练程度。该数据集由SEACrowd团队于2024年6月20日创建，包含14,906个问题，跨越63个任务和教育水平，其中46%的问题专注于评估印尼语的熟练度。IndoMMLU的构建，不仅填补了印尼语语言处理研究的空白，也为印尼教育评估体系提供了重要的数据资源。

当前挑战

该数据集的构建过程中，研究人员面临了多语言数据收集与标注的挑战，确保了跨语言和文化的一致性与准确性。此外，IndoMMLU在解决印度尼西亚语言理解任务的同时，还需克服如何平衡多元语言和文化背景下的问题设计与答案评估标准的难题。这些问题共同构成了IndoMMLU数据集在研究领域中的关键挑战。

常用场景

经典使用场景

在自然语言处理领域，IndoMMLU数据集以其独特的多任务语言理解特性，成为研究印尼文化和语言的宝贵资源。该数据集涵盖了从小学到大学入学考试的问题，使得它成为评估和训练语言模型在印尼语言和文化理解方面的经典工具。

解决学术问题

IndoMMLU数据集解决了学术研究中对印尼本土语言和文化理解缺乏标准化测试的问题。它为研究者提供了一个全面的评估框架，以检验语言模型在不同教育水平和任务类型上的表现，从而推动了对多语言环境中语言模型性能的深入理解。

实际应用

实际应用中，IndoMMLU数据集可用于教育和评估系统，以提升印尼学生的语言和文化知识水平。此外，它也适用于开发智能助手和聊天机器人，这些应用能够以更加贴近印尼本土用户的方式提供服务和交互。

数据集最近研究