issai/MMLU_Redux_2.0_Kazakh

Name: issai/MMLU_Redux_2.0_Kazakh
Creator: issai
Published: 2026-04-30 04:49:01
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/issai/MMLU_Redux_2.0_Kazakh

下载链接

链接失效反馈

官方服务：

资源简介：

MMLU_Redux_2.0_Kazakh是原始MMLU-Redux 2.0基准的哈萨克语机器翻译版本，旨在评估大型语言模型在跨多个领域多选题推理任务上的表现。数据集包含约5,700个问题，涵盖57个学科，包括数学、自然科学、社会科学和人文学科。问题和答案选项被翻译成哈萨克语，而学科标签和整体结构保持不变，以便与原始英语基准直接比较。

MMLU_Redux_2.0_Kazakh is a machine-translated Kazakh version of the original MMLU-Redux 2.0 benchmark. It is designed to evaluate large language models on multiple-choice reasoning tasks across diverse domains. The dataset contains around 5,700 questions covering 57 subjects, including mathematics, natural sciences, social sciences, and humanities. Questions and answer options are translated into Kazakh, while subject labels and overall structure remain unchanged to enable direct comparison with the original English benchmark.

提供机构：

issai

搜集汇总

数据集介绍

构建方式

MMLU_Redux_2.0_Kazakh数据集是基于原始MMLU-Redux 2.0基准测试的哈萨克语机器翻译版本。该数据集通过将原版中约5700道涵盖数学、自然科学、社会科学与人文学科等57个学科的多项选择题干及选项自动翻译为哈萨克语构建而成，同时保留了原始英文基准的学科标签与整体结构，确保跨语言性能评估的可比性。数据以Parquet格式存储，包含唯一标识符、学科类别、哈萨克语问题文本、四个哈萨克语选项及正确答案索引字段，便于直接加载与解析。

特点

该数据集的核心特色在于其跨学科覆盖与语言适配性。57个学科从抽象代数到解剖学、天文学等领域广泛分布，为大型语言模型提供了多样化的推理挑战。哈萨克语翻译版本填补了中亚语言在高级知识推理评估中的空白，允许研究者直接对比模型在源语言与目标语言上的表现差异。数据集规模约5700条，虽属中小型，但学科广度与问题难度使其成为评估多语言模型认知能力的有效工具。

使用方法

使用MMLU_Redux_2.0_Kazakh时，研究者可通过加载Parquet文件获取测试集数据。模型需针对每个样本的哈萨克语问题（question_kk）与四个选项（choices_kk）进行推理，输出预测答案索引，并与真实标签（answer）对比以计算准确率。由于数据保留了原始学科标签，可分别评估模型在各领域的能力。建议配合标准MMLU评估协议，对模型输出进行零样本或少样本设置下的性能度量，以实现与原始英文基准的跨语言比较。

背景与挑战

背景概述

随着大语言模型在自然语言处理领域的迅猛发展，如何系统评估其对多领域知识的掌握程度成为关键研究课题。MMLU基准测试因其覆盖57个学科、涵盖数学、自然科学、社会科学和人文学科的广泛性，已成为衡量模型推理能力的国际标准。MMLU_Redux_2.0_Kazakh数据集由研究团队于近期创建，旨在将这一权威基准拓展至哈萨克语领域。该数据集通过机器翻译技术，将原始MMLU-Redux 2.0中约5700道多项选择题精准转换为哈萨克语，保留原有主题标签与结构，从而支持跨语言模型性能的直接对比。这一工作不仅填补了低资源语言在综合知识评估领域的空白，也为推动多语言人工智能的公平性研究提供了重要工具。

当前挑战

MMLU_Redux_2.0_Kazakh数据集面临多重挑战。在领域问题层面，核心挑战在于解决大语言模型对哈萨克语这一低资源语言的推理与知识理解能力评估难题，由于哈萨克语语料库匮乏，模型常表现出性能下降，数据集需要提供高质量且覆盖广泛的测试样本来严格检验模型的多语言泛化能力。在构建过程中，主要挑战来自机器翻译的准确性：将英语中依赖文化背景和术语精确性的题目转化为哈萨克语，容易引入歧义或信息丢失。例如，数学和自然科学领域的专业术语翻译需确保语义忠实，而社会科学问题中的文化特定概念可能无法直接对应。此外，维持答案选项的逻辑一致性及避免翻译过程中引入错误，也对数据质量控制构成了严峻考验。

常用场景

经典使用场景

MMLU_Redux_2.0_Kazakh作为哈萨克语多领域多项选择题推理基准，主要用于评估大语言模型在57个学科上的零样本和少样本推理能力。研究者通过该数据集测试模型在数学、自然科学、社会科学与人文学科中的知识掌握程度与逻辑推理水平，尤其关注模型在低资源语言环境下的表现。其经典使用范式是将模型输出与标准答案比较，计算准确率，从而衡量模型在多样化知识领域的泛化性能。

解决学术问题

该数据集解决了低资源语言——哈萨克语在自然语言处理评估中缺乏标准化、跨领域推理基准的学术难题。以往多数AI评估集中于英语和少数高资源语言，导致非英语模型的鲁棒性和知识广度难以客观测量。MMLU_Redux_2.0_Kazakh填补了这一空白，使研究者能够量化分析语言模型在哈萨克语环境下的知识覆盖缺陷，推动多语言AI系统的公平性与包容性发展，并促进对模型跨语言知识迁移能力的深入探索。

衍生相关工作

该数据集衍生了一系列相关工作，包括多语言基准翻译标准化研究、低资源语言NLP评估体系构建以及跨语言模型知识迁移分析。典型工作如利用MMLU_Redux_2.0_Kazakh对比不同翻译策略（如机器翻译与人工校验）对评估结果的影响，或探索预训练语言模型在哈萨克语上的微调策略。还有研究将其与中文、阿拉伯语等版本的MMLU-Redux联合分析，揭示模型在多语言环境下的知识一致性缺陷，进而推动适应性更强的多语言模型架构设计。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集