five

sapiens-technology/global_mmlu_lite_pt

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/sapiens-technology/global_mmlu_lite_pt
下载链接
链接失效反馈
官方服务:
资源简介:
Global-MMLU Lite (Portuguese)是Global-MMLU Lite基准测试的一个精选子集,旨在评估大型语言模型在葡萄牙语中的推理、知识和多项选择题回答能力。它提供了跨领域(如常识、科学、地理等)的多样化且计算高效的翻译和改编问答样本。每个实例遵循一个简单一致的JSON结构,包含一个带有葡萄牙语选项的多项选择题输入和一个表示正确答案标记的输出。该葡萄牙语子集特别适合针对pt-BR和更广泛葡萄牙语理解的模型,具有轻量级设计、降低的计算成本和可靠的推理与理解评估等优势,同时也承认了包括部分领域覆盖、潜在翻译引起的变异和多项选择评估格式固有的限制等局限性。

Global-MMLU Lite (Portuguese) is a curated subset of the Global-MMLU Lite benchmark designed to evaluate the reasoning, knowledge, and multiple-choice question-answering capabilities of large language models in Portuguese, providing a diverse and computationally efficient collection of translated and adapted QA samples across domains such as general knowledge, science, geography, and related fields; each instance follows a simple and consistent JSON structure composed of an input containing a multiple-choice question with answer options in Portuguese and an output representing the correct labeled answer, enabling standardized benchmarking, fine-tuning, and evaluation workflows, while maintaining accessibility and ease of integration; this Portuguese-focused subset is particularly suitable for models targeting pt-BR and broader Portuguese language understanding, offering advantages such as lightweight design, reduced computational cost, and reliable assessment of reasoning and comprehension, while acknowledging limitations including partial domain coverage, potential translation-induced variation, and constraints inherent to multiple-choice evaluation formats.
提供机构:
sapiens-technology
搜集汇总
数据集介绍
main_image_url
构建方式
Global-MMLU Lite (Portuguese) 数据集是对 Global-MMLU Lite 基准测试的精妙裁剪与适配,专为评估大语言模型在葡萄牙语语境下的推理与知识掌握能力而设计。其构建过程基于从广泛领域(包括常识、科学、地理等)中精选的问答样本,通过翻译与本地化调整形成统一的葡萄牙语多选题格式。每个样本遵循简洁的 JSON 结构,包含包含问题与选项的“input”字段以及标注正确答案的“output”字段,从而确保标准化评估与微调流程的流畅实施。
特点
该数据集的核心优势在于其轻量级架构与高效计算特性,显著降低了评测过程中的资源消耗,同时保持了对模型推理与理解能力的可靠评估。其领域覆盖虽经精心平衡,但因专注于葡萄牙语(尤以巴葡为主),可能面临部分知识域覆盖不足及翻译引入的语义变异等局限。尽管如此,其一致的多选题格式与明确的标签设计,使其成为评估葡萄牙语模型性能的理想基准。
使用方法
使用者可通过直接下载压缩包获取数据集,并利用标准的 JSON 解析工具加载样本。在评估或微调阶段,模型需接收包含葡萄牙语问题与选项的“input”字段,并输出对应正确答案的标签。数据集兼容多种工作流,既可单独用于葡萄牙语模型的推理测试,也可作为 Global-MMLU 多语言体系的一部分进行跨语言比较分析。其简洁结构便于集成至 Hugging Face Datasets 等框架,实现快速迭代与实验复现。
背景与挑战
背景概述
Global-MMLU Lite (Portuguese) 是一个专为葡萄牙语推理能力评估而设计的数据集,由 Sapiens Technology 团队于近期创建。该数据集聚焦于葡萄牙语(尤其是 pt-BR 变体)环境下大语言模型的多选题回答与知识推理能力,涵盖常识、科学、地理等多个领域。作为 Global-MMLU Lite 的子集,它通过轻量化设计降低了计算成本,旨在促进葡萄牙语自然语言处理领域的标准化评估与模型微调。其发布弥补了现有基准在低资源语言(如葡萄牙语)上的不足,对推动多语言大模型在巴西及葡语国家的应用具有重要影响力。
当前挑战
该数据集面对的领域挑战包括:1)葡萄牙语大语言模型在多选题知识推理任务中的评估标准缺失,需平衡领域覆盖面与计算效率;2)原始 Global-MMLU 数据跨语言翻译可能引入语义偏差,需严格验证翻译质量保证评估可靠性。构建过程中的挑战则集中于:1)在保持轻量化设计的同时,从海量 Global-MMLU 数据中精选代表性样本,避免领域稀疏性导致评估偏倚;2)统一葡萄牙语多源问题的 JSON 结构,消除选项顺序、语法歧义等对输出鲁棒性的干扰,确保多轮测试一致性。
常用场景
经典使用场景
Global-MMLU Lite(葡萄牙语)数据集为评估大语言模型在葡萄牙语环境下的推理能力与知识掌握程度提供了精炼而高效的基准。该数据集精选自Global-MMLU Lite,涵盖常识、科学、地理等多领域的选择题样本,采用统一的JSON结构,每个实例包含葡萄牙语问题、选项及标准答案。其轻量级设计显著降低了计算成本,适合模型快速评估、微调及标准化测试,尤其适用于面向巴西及更广泛葡萄牙语社区的模型研究。
实际应用
实际应用中,该数据集可服务于葡萄牙语智能客服、教育测评及区域化知识问答系统的开发。通过模型在此基准上的表现,开发者能针对性优化语言模型在巴西等葡语地区的本土化知识覆盖与回答准确性,例如用于科学教育工具的自动评分、旅游信息咨询的语境推理,或评估AI在法律、医疗等专业领域的葡萄牙语问答可靠性。
衍生相关工作
该数据集衍生出多项关键工作,包括探索翻译质量对多语言推理影响的研究、基于Global-MMLU Lite扩展葡萄牙语特定领域子集的适配框架,以及利用其轻量特性提出低成本模型评估协议。此外,它促进了葡萄牙语与英语模型在MMLU基准上的性能对齐分析,催生了针对翻译伪影的数据增强方法及跨语言知识迁移的消融实验设计。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作