SinhalaMMLU
收藏arXiv2025-09-03 更新2025-09-05 收录
下载链接:
https://github.com/naist-nlp/SinhalaMMLU,https://huggingface.co/datasets/naist-nlp/SinhalaMMLU
下载链接
链接失效反馈官方服务:
资源简介:
SinhalaMMLU是一个用于评估多任务语言理解能力的基准数据集,专为斯里兰卡的低资源语言僧伽罗语设计。该数据集包含超过7000个问题,涵盖从中学到大学教育水平的各个学科,并与斯里兰卡国家课程相一致。它包括六个领域和30个学科,既包括一般学术话题,也包括具有文化背景的知识。SinhalaMMLU旨在填补现有基准数据集在低资源语言和文化特定内容方面的空白,并促进低资源语言和文化相关语言模型的发展。
SinhalaMMLU is a benchmark dataset for evaluating multi-task language understanding capabilities, specifically designed for Sinhala, a low-resource language of Sri Lanka. It contains over 7,000 questions spanning disciplines from secondary to tertiary education levels, aligned with Sri Lanka’s national curriculum. The dataset covers six domains and 30 disciplines, encompassing both general academic topics and culturally contextualized knowledge. SinhalaMMLU aims to fill the gaps in existing benchmark datasets for low-resource languages and culture-specific content, and to promote the development of language models tailored for low-resource languages and culturally relevant contexts.
提供机构:
奈良先端科学技术大学院大学(NAIST),斯里兰卡科伦坡大学计算机科学学院(UCSC),斯里兰卡信息技术学院(IIT)
创建时间:
2025-09-03
搜集汇总
数据集介绍
构建方式
SinhalaMMLU数据集的构建严格遵循斯里兰卡国家教育课程体系,通过系统化采集政府公开的各级考试题库完成。研究团队从官方电子学习平台e-thaksalawa及省级考试试卷中手工提取了7044道选择题,覆盖初中至大学预科阶段的30个学科。所有题目均经过四名具备本科以上学历的标注员历时两个月的筛选,排除了包含多模态内容或数学符号推理的题目,并通过余弦相似度分析去重,确保内容的独特性和文化适配性。
特点
该数据集显著特点在于其文化根植性与学科多样性。48%的题目集中于人文领域,包含斯里兰卡历史、传统舞蹈、东方音乐等文化特异性内容,其余题目覆盖STEM、社会科学等六大领域。题目难度分为初、中、高三级,分别对应6-8年级、9-11年级及大学预科水平,其中高阶题目采用五选项设计以增加挑战性。所有内容均使用僧伽罗语原生表达,避免了翻译带来的文化失真。
使用方法
数据集采用标准化多选题格式,每道题目包含问题主干、4-5个选项及单一正确答案。评估时需使用包含学科领域信息的提示模板,以零样本或少样本方式测试模型性能。研究者可通过Hugging Face平台获取完整数据,利用lm-evaluation-harness框架进行模型评估,重点关注模型在文化相关领域和不同难度层级的表现差异。评估指标以准确率为主,同时建议分析模型在否定句式及子选项问题上的表现。
背景与挑战
背景概述
SinhalaMMLU数据集由日本奈良先端科学技术大学院大学与斯里兰卡多所高校联合研发,于2025年正式发布,旨在填补僧伽罗语这一低资源语言在自然语言处理领域的评估空白。该数据集严格遵循斯里兰卡国家教育课程体系,涵盖中学至大学阶段的30个学科领域,包含超过7000道选择题,重点关注人文社科与本土文化知识。其创新性在于完全采用原生僧伽罗语构建,避免了翻译带来的文化失真问题,为评估大语言模型在低资源语言环境下的多任务理解能力提供了重要基准。
当前挑战
该数据集核心挑战在于解决僧伽罗语语言模型评估中文化语境缺失与领域适应性不足的问题。构建过程中面临双重困难:一是需精准处理非拉丁字符的僧伽罗语文本,确保学科术语与本土文化概念的原生性表达;二是需克服教育资料数字化程度低的问题,通过人工标注从纸质考试材料中提取高质量题目,并建立符合语言特性的难度分级体系。此外,数据分布不平衡现象突出,人文类题目占比达48%,对模型的文化认知能力提出更高要求。
常用场景
经典使用场景
在低资源语言处理领域,SinhalaMMLU数据集作为首个针对僧伽罗语的多任务语言理解基准,广泛应用于评估大语言模型在非拉丁语系语言上的综合性能。该数据集通过覆盖中学至大学教育阶段的学科知识,为研究者提供了系统化测试模型跨学科推理能力的标准框架,尤其在文化相关科目如历史、艺术和宗教等领域展现出独特价值。
衍生相关工作
该数据集催生了多个低资源语言评估基准的创新研究,包括扩展至其他南亚语言的类似基准构建工作。基于其设计理念,研究者开发了针对泰米尔语、马尔代夫语等语言的评估框架,并推动了文化敏感型语言模型的训练方法创新,如基于本地化知识的提示工程和跨文化迁移学习技术。
数据集最近研究
最新研究方向
在低资源语言处理领域,SinhalaMMLU数据集的推出标志着对僧伽罗语多任务语言理解能力系统化评估的重要突破。该数据集涵盖人文、STEM、社会科学等六大领域,特别强调本土文化知识的融入,如斯里兰卡历史、传统艺术等独特语境。当前研究聚焦于大语言模型在低资源语言中的文化适应性挑战,尤其在人文领域表现显著滞后,揭示了机器翻译基准在文化语义传递上的局限性。前沿探索方向包括开发文化敏感的预训练策略、优化少样本学习机制,以及构建跨语言的文化知识对齐框架,这些工作对推动全球语言技术的公平性发展具有深远意义。
相关研究论文
- 1SinhalaMMLU: A Comprehensive Benchmark for Evaluating Multitask Language Understanding in Sinhala奈良先端科学技术大学院大学(NAIST),斯里兰卡科伦坡大学计算机科学学院(UCSC),斯里兰卡信息技术学院(IIT) · 2025年
以上内容由遇见数据集搜集并总结生成



