NorEval
收藏arXiv2025-04-10 更新2025-04-15 收录
下载链接:
https://github.com/ltgoslo/noreval/tree/main
下载链接
链接失效反馈官方服务:
资源简介:
NorEval是一个针对挪威语言理解和生成任务的全面评估套件,由奥斯陆大学等机构创建。该数据集包含24个人类创建的高质量数据集,涵盖了从情感分析到机器翻译等多种任务类别,旨在为挪威Bokmål和Nynorsk两种官方书写标准的语言模型提供大规模标准化基准测试。数据集整合了超过100个特定数据集的提示,以确保评估的灵活性和可重复性,适用于多种评估场景。
NorEval is a comprehensive evaluation suite for Norwegian language understanding and generation tasks, developed by institutions including the University of Oslo. This suite includes 24 high-quality human-created datasets covering a wide range of task categories from sentiment analysis to machine translation. It aims to provide large-scale standardized benchmarks for language models tailored to the two official Norwegian writing standards, Bokmål and Nynorsk. The suite integrates over 100 prompts sourced from individual specific datasets to ensure the flexibility and reproducibility of evaluations, making it applicable to diverse evaluation scenarios.
提供机构:
奥斯陆大学
创建时间:
2025-04-10
搜集汇总
数据集介绍

构建方式
NorEval数据集的构建采用了多阶段人工标注与自动化提取相结合的方法。首先从公开资源中筛选高质量挪威语文本,由母语者进行人工标注,确保覆盖挪威语的两种官方书面标准(Bokmål和Nynorsk)。针对特定任务(如语法纠错、习语补全),通过规则扰动和语料库过滤技术创建平行数据。所有数据集均集成至LM Evaluation Harness框架,支持零样本、少样本及多提示评估场景,并通过双阶段提示工程(Bokmål原版创作→Nynorsk适配)确保语言变体的平衡性。
特点
该数据集包含24个跨9大任务类别的基准测试集,涵盖情感分析、常识推理、机器翻译等复杂语言能力评估维度。其核心特色在于:1) 同时支持挪威语两种书面变体,其中Nynorsk语料占比达33%;2) 包含5个原创数据集及100+人工编写的提示模板;3) 所有数据均经过严格质量控制,避免机器翻译偏差;4) 建立5项人类基线指标,为模型性能提供参照系。数据集设计强调任务多样性,例如在真实性评估中引入多选和生成双任务模式,全面检测模型输出可靠性。
使用方法
使用者可通过标准化API接入LM Evaluation Harness框架进行评估,支持三种典型场景:1) 基于对数似然的分类/选择题评估,适用于情感分析等判别任务;2) 自回归生成评估,用于摘要、翻译等序列生成任务;3) LLM-as-a-judge并行比较,通过70B参数裁判模型对指令跟随能力进行自动化评估。评估时建议采用多提示聚合策略(选择各任务最佳提示得分)并结合Borda计数法进行跨任务性能汇总,以缓解指标异质性带来的偏差。对于低资源场景,提供16-shot演示样例采样方案以优化上下文学习效果。
背景与挑战
背景概述
NorEval是由奥斯陆大学和挪威国家图书馆的研究团队于2025年推出的挪威语理解与生成评估基准。作为目前最全面的挪威语大模型评估套件,NorEval包含24个高质量人工构建的数据集,涵盖Bokmål和Nynorsk两种官方书面挪威语变体。该数据集针对9大任务类别设计,包括情感分析、常识推理、机器翻译等,填补了挪威语在多样化评估资源方面的空白。通过整合LM Evaluation Harness框架,NorEval为挪威语模型的标准化评估提供了灵活可复现的解决方案,其建立的人类基线为模型性能上限提供了重要参考。
当前挑战
NorEval面临的核心挑战体现在两个方面:在领域问题层面,需解决挪威语作为低资源语言在语言理解与生成任务中的评估难题,特别是Nynorsk变体的代表性不足问题;在构建过程中,需克服双语数据质量控制的复杂性,包括避免机器翻译带来的文化偏差,以及确保两种语言变体在语法、词汇等语言学特征上的准确表达。此外,数据集的构建还需平衡任务多样性(如指令遵循、真实性评估等新兴需求)与传统NLP任务的关系,同时维护评估指标在跨任务比较中的科学性与公平性。
常用场景
经典使用场景
NorEval数据集广泛应用于挪威语语言模型的评估和基准测试,特别是在自然语言理解(NLU)和自然语言生成(NLG)任务中。其多样化的任务类别,如情感分析、机器翻译、文本摘要和常识推理,使其成为评估模型在挪威语(包括Bokmål和Nynorsk两种官方书面标准)上性能的理想选择。研究人员和开发者通过NorEval可以系统地比较不同模型在多种任务上的表现,从而推动挪威语语言模型的发展。
衍生相关工作
NorEval的推出激发了多项相关研究,特别是在挪威语语言模型的指令微调和多任务学习领域。基于NorEval的基准测试结果,研究者开发了多种改进模型,如NorMistral和NorBLOOM系列。此外,NorEval的评估框架和数据集也被其他北欧语言(如丹麦语和瑞典语)的研究项目所借鉴,推动了整个斯堪的纳维亚地区语言模型的发展。
数据集最近研究
最新研究方向
近年来,NorEval数据集在挪威语言理解和生成领域的研究中占据了重要地位。该数据集通过涵盖挪威语的两种官方书面标准(Bokmål和Nynorsk),为大规模标准化评估挪威生成语言模型(LMs)提供了全面的基准测试套件。NorEval包含24个高质量的人工创建数据集,覆盖了从情感分析、挪威语言知识到机器翻译和文本摘要等多个任务类别。其独特之处在于不仅建立了人类基线,还通过LM Evaluation Harness实现了灵活且可复现的评估。当前研究热点包括多提示k-shot评估、指令调优模型的性能分析以及通过LLM-as-a-judge方法自动评估生成能力。NorEval的推出填补了低资源语言(如挪威语)在多样化评估套件方面的空白,为挪威语言模型的发展提供了重要的参考和推动。
相关研究论文
- 1NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark奥斯陆大学 · 2025年
以上内容由遇见数据集搜集并总结生成



