Burmese-MMLU-Lite

Hugging Face2025-05-15 更新2025-05-16 收录

下载链接：

https://huggingface.co/datasets/Rickaym/Burmese-MMLU-Lite

下载链接

链接失效反馈

官方服务：

资源简介：

MMLU Lite MYA数据集是Global-MMLU-Lite数据集的缅甸语翻译版本，由人类注释，用于Aya Expedition项目。数据集包含开发集和测试集，每个集合都包括问题及其四个选项和正确答案。

创建时间：

2025-05-07

原始信息汇总

MMLU-Lite (Burmese) 数据集概述

基本信息

数据集名称: MMLU Lite MYA
语言: 缅甸语 (Burmese)
许可证: Apache-2.0
数据集大小: 835016 字节
下载大小: 308720 字节
数据规模: 小于1K (n<1K)

数据集结构

配置名称: default
数据文件:
- 开发集 (dev): 215 个样本，288405 字节
- 测试集 (test): 400 个样本，546611 字节

数据特征

样本ID (sample_id): 字符串类型
问题 (question): 字符串类型
选项A (option_a): 字符串类型
选项B (option_b): 字符串类型
选项C (option_c): 字符串类型
选项D (option_d): 字符串类型
答案 (answer): 字符串类型

背景信息

来源: Global-MMLU-Lite 的缅甸语翻译版本
用途: 为 Aya Expedition 准备

标注人员

Pyae Sone Myo
Min Thein Kyaw
May Myat Noe Aung
Arkar Zaw
Alexander Antonov

搜集汇总

数据集介绍

构建方式

在缅甸语自然语言处理研究领域，Burmese-MMLU-Lite数据集通过专业团队对Global-MMLU-Lite基准测试的精心本地化构建而成。由包括Pyae Sone Myo在内的五位缅甸语专家组成的标注团队，采用人工翻译方式将原始英语题目转化为符合缅甸文化语境的版本，确保了语言表达的准确性和本土适应性。该数据集严格遵循Apache-2.0许可协议，包含215条开发集和400条测试集样本，每个样本均包含唯一标识符、问题题干、四个选项及标准答案的完整结构。

特点

作为专门针对缅甸语设计的评估基准，该数据集最显著的特点是实现了国际通用知识测评框架的本土化转型。样本覆盖多领域知识问题，每个条目包含标准化的ABCD四选一结构，便于模型性能的量化评估。数据规模虽不足千例，但凭借专业译者的精准转换和严格校验，在语言质量和文化适配性方面具有权威性。其轻量级特性特别适合资源受限环境下的模型测试，为缅甸语NLP研究提供了稀缺的标准化评估工具。

使用方法

研究者可通过HuggingFace平台直接加载该数据集进行模型测评，开发集与测试集已预分割便于交叉验证。典型应用场景包括：将question字段作为模型输入，四个option字段作为候选，通过比对模型输出与answer字段评估准确率。该数据集兼容主流NLP框架，特别适用于多语言大模型在缅甸语上的零样本或少样本学习能力测试。作为Aya Expedition项目的重要组成部分，其设计初衷是促进低资源语言AI模型的公平评估。

背景与挑战

背景概述

Burmese-MMLU-Lite数据集是专为缅甸语自然语言处理研究而构建的多选题评测基准，其开发源于全球知识评估的需求。该数据集由CohereLabs团队主导，联合缅甸本土语言专家Pyae Sone Myo等多位研究者，基于Global-MMLU-Lite框架进行本地化改造，作为Aya Expedition项目的重要组成部分。数据集构建于2023年前后，旨在解决低资源语言环境下模型通用知识理解能力的评估难题，为缅甸语NLP社区提供了首个标准化知识测评工具，对推动东南亚语言AI研究具有开创性意义。

当前挑战

该数据集面临双重核心挑战：在领域问题层面，需克服缅甸语与印欧语系间的结构差异，确保知识评估任务能准确反映模型对缅甸文化语境的理解深度；在构建过程中，专业术语的本土化转译涉及复杂的语言学权衡，五位标注者需协调方言变体与标准缅文的统一性。数据规模受限（仅615样本）进一步加剧了统计学显著性验证的难度，这对评估模型的泛化能力提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，Burmese-MMLU-Lite数据集为缅甸语的多选题理解任务提供了标准化的评估基准。该数据集通过精心设计的多选题形式，能够有效测试模型在缅甸语语境下的知识理解和推理能力，尤其适用于评估跨语言模型的零样本或少样本迁移性能。

解决学术问题

该数据集解决了缅甸语自然语言处理研究中缺乏高质量评估基准的突出问题。通过提供人工标注的专业知识问答数据，研究者能够定量分析模型在缅甸语知识理解任务上的表现，填补了低资源语言评估工具链的空白，为跨语言模型能力评估提供了新的维度。

衍生相关工作

基于该数据集衍生的研究包括缅甸语大语言模型微调技术、跨语言知识迁移方法等。在Aya Expedition项目中，它被用于评估多语言模型的缅甸语处理能力，后续工作进一步扩展了其在低资源语言NLP基准测试中的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集