nlp-waseda/JMMLU

Name: nlp-waseda/JMMLU
Creator: nlp-waseda
Published: 2024-02-27 05:22:30
License: 暂无描述

Hugging Face2024-02-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nlp-waseda/JMMLU

下载链接

链接失效反馈

官方服务：

资源简介：

JMMLU（Japanese Massive Multitask Language Understanding Benchmark）是一个用于评估大型语言模型在日语环境下表现的多选题数据集。它包含从MMLU（Massive Multitask Language Understanding）翻译的日语问题以及基于日本文化背景的原创问题。数据集由7536个问题组成，涵盖56个不同的学科领域，如专业医学、哲学、日本历史、日本地理等。翻译问题经过机器翻译和人工校对，确保其流畅性和文化适应性；原创问题则由日本教师手动创建。数据集的格式与MMLU相同，每个问题包含四个选项和一个正确答案。JMMLU的版权归属于多个机构，商业使用仅限于语言模型的研究和评估。

提供机构：

nlp-waseda

原始信息汇总

数据集概述

数据集名称

JMMLU：Japanese Massive Multitask Language Understanding Benchmark

数据集内容

问题类型：四选一选择题
问题来源：
- 翻译自MMLU的部分问题
- 基于日本独特文化背景的问题
问题处理：
- 机器翻译后由翻译者检查和修改，确保流畅性和文化相关性
- 由日本教师手动创建的学校科目相关问题

数据集结构

格式：每题包含问题、四个选项及答案

数据集规模

问题数量：7,536题
任务数量：56个任务（科目）

版权与许可

许可：CC BY-NC-ND 4.0
版权说明：
- 日本历史和世界历史的版权属于STEP Corporation，商业用途限于语言模型的研究和评估。
- 日本成语、日本公民和日本地理的版权属于New Style Cram School VIST，商业用途限于语言模型的研究和评估。

致谢

感谢RIKEN在MMLU翻译中的支持。
感谢STEP Corporation提供日本历史和世界历史的材料。
感谢New Style Cram School VIST提供日本成语、日本公民和日本地理的资源。

搜集汇总

数据集介绍

构建方式

在日语自然语言处理领域，构建高质量的评估基准对于衡量大语言模型的多任务理解能力至关重要。JMMLU数据集的构建融合了翻译与本土化策略，从MMLU的57个学科中精选最多150道题目，通过机器翻译初步转换为日语，随后由专业译者进行审校，剔除翻译困难、文化不相关或与日本语境冲突的题目，并对剩余题目进行语言润色以确保流畅性。同时，针对日本独特的文化背景，如公民教育、历史等领域，由日本教师手工编制原创题目，最终形成涵盖56个学科、总计7536道四选一选择题的综合性数据集。

使用方法

在模型评估实践中，JMMLU数据集为日语大语言模型的性能测试提供了标准化工具。使用者可直接加载数据集，按照预设的学科分类提取题目，每个条目包含问题、四个选项及正确答案，便于构建批量推理任务。评估时，模型需基于输入问题生成或选择对应答案，通过计算整体或分学科准确率来量化其多任务理解能力。该数据集适用于学术研究、模型优化及跨语言能力对比，但需注意部分题目受版权限制，仅限非商业的研究与评估用途。

背景与挑战

背景概述

在自然语言处理领域，多语言大模型评估基准的构建对于推动语言智能的全球化发展至关重要。JMMLU数据集由日本早稻田大学自然语言处理研究团队于近年创建，其核心研究问题聚焦于评估大型语言模型在日语环境下的综合理解能力。该数据集巧妙融合了国际通用知识测试MMLU的翻译题目与日本本土文化语境下的原创题目，覆盖了从基础学科到专业领域的56个任务类别，共计7536道四选一题目。这一创新设计不仅填补了日语大规模多任务语言理解基准的空白，也为跨语言模型性能比较提供了重要参照，显著促进了日语自然语言处理技术的标准化与前沿探索。

当前挑战

JMMLU数据集致力于解决日语大模型在多领域知识理解与推理方面的评估挑战，其核心在于如何精准衡量模型对复杂日语语义、文化特定概念及专业术语的掌握程度。在构建过程中，团队面临双重困难：一是从MMLU中筛选并翻译题目时，需克服机器翻译的局限性，通过人工校验剔除文化不相关或翻译生硬的内容，确保语言流畅性与文化适应性；二是针对日本独特文化背景的题目，需依赖本土教师手工创作，保证知识准确性与语境真实性，同时协调多方版权资源，严格限制商业用途以符合学术伦理规范。

常用场景

经典使用场景

在日语自然语言处理领域，JMMLU数据集作为一项综合性评估工具，其经典使用场景聚焦于大规模语言模型的多任务理解能力测试。该数据集通过涵盖专业医学、哲学、天文学等56个学科领域的7536道四选一问题，为研究者提供了标准化的基准平台，用以系统衡量模型在日语语境下的知识广度与推理深度。其设计融合了翻译自MMLU的通用知识题目与基于日本文化背景的原创题目，确保了评估既具国际可比性又兼顾本土特异性，成为推动日语语言模型迭代优化的关键基础设施。

解决学术问题

JMMLU数据集有效解决了日语自然语言处理研究中模型评估体系碎片化的学术难题。传统评估多局限于单一领域或简单任务，难以全面反映模型在复杂多学科知识整合与跨文化语境理解上的真实性能。该数据集通过构建大规模、多维度、高质量的问题集合，为量化模型的语言理解能力提供了统一尺度，促进了学术界对模型泛化性、偏差性与文化适应性的深入探讨，从而加速了日语语言智能技术的理论发展与方法创新。

实际应用

在实际应用层面，JMMLU数据集广泛服务于日语语言模型的开发与优化流程。科技企业与研究机构常依托该数据集进行模型预训练后的性能验证，精准识别模型在特定学科或文化领域的薄弱环节，进而指导数据增强、微调策略或架构改进。此外，其在教育技术、智能客服、内容审核等日语相关AI产品中，可作为可靠性测试的重要依据，确保模型输出符合专业知识规范与文化敏感性，提升实际部署中的稳健性与可信度。

数据集最近研究