NorEval

github2025-04-14 更新2025-04-15 收录

下载链接：

https://github.com/ltgoslo/noreval

下载链接

链接失效反馈

官方服务：

资源简介：

NorEval是一个多任务的挪威语言理解和生成评估基准，结合了19个现有的同行评审数据集和五个新创建的数据集。它涵盖了九种不同的任务类别，包括情感分析、挪威语言知识、挪威特定和世界知识、机器阅读理解、常识推理、机器翻译、文本摘要、指令遵循和真实性。

NorEval is a multi-task Norwegian language understanding and generation evaluation benchmark that incorporates 19 existing peer-reviewed datasets and five newly created datasets. It covers nine distinct task categories, including sentiment analysis, Norwegian language knowledge, Norwegian-specific and world knowledge, machine reading comprehension, commonsense reasoning, machine translation, text summarization, instruction following, and authenticity.

创建时间：

2025-04-09

原始信息汇总

🇳🇴 NorEval 数据集概述

🔥 最新动态

10.04.2025: 预印本发布于 arXiv。
09.04.2025: 发布 NorEval，包含标注指南和新数据集（NorRewrite-Instruct & NorSummarize-Instruct）。

😎 概述

NorEval 是一个多任务挪威语理解和生成评估基准，结合了19个现有同行评审数据集和5个新创建的数据集，覆盖9个任务类别。

主要特点

🌐 语言多样性：支持挪威语的两种官方书面标准：Bokmål 和 Nynorsk。
📊 任务多样性：覆盖多种挪威语任务，仅3个数据集被现有挪威基准包含。
🧠 数据质量：仅使用同行评审的人工创建数据集。
📏 提示敏感性：评估超过100个人工编写的提示。
👩🏻‍🔬 标准化评估：集成到 LM Evaluation Harness 中。

🗃️ 任务

数据集分为文本分类、句子排序、句子补全、多项选择问答、生成式问答和序列到序列生成任务。

任务列表

名称	Bokmål	Nynorsk	k-shot	任务类型	任务类别
NoReC Sentence	`norec_sentence`	❌	✅	文本分类	情感分析
NoReC Document	`norec_document`	❌	✅	文本分类	情感分析
NCB	`ncb`	❌	❌	句子排序	挪威语言知识
NorIdiom	`noridiom_nob`	`noridiom_nno`	❌	句子补全	挪威语言知识
Belebele	`norbelebele`	❌	❌	多项选择问答	机器阅读理解
NRK-Quiz-QA	`nrk_quiz_qa_nob`	`nrk_quiz_qa_nno`	❌	多项选择问答	挪威特定和世界知识
NorOpenBookQA	`noropenbookqa_nob`	`noropenbookqa_nno`	✅	多项选择问答	挪威特定和世界知识
NorCommonsenseQA	`norcommonsenseqa_nob`	`norcommonsenseqa_nno`	❌	多项选择问答	常识推理
NorTruthfulQA Multiple choice	`nortruthfulqa_mc_nob`	`nortruthfulqa_mc_nno`	❌	多项选择问答	真实性
NorQuAD	`norquad`	❌	✅	生成式问答	机器阅读理解
NorTruthfulQA Generation	`nortruthfulqa_gen_nob`	`nortruthfulqa_gen_nno`	❌	生成式问答	真实性
ASK-GEC	`ask_gec`	❌	✅	序列到序列生成	挪威语言知识
NorSumm	`norsumm_nob`	`norsumm_nno`	✅	序列到序列生成	文本摘要
Tatoeba (English → Bokmål/Nynorsk)	`tatoeba_eng_nob`	`tatoeba_eng_nno`	✅	序列到序列生成	机器翻译
Tatoeba (Bokmål/Nynorsk → English)	`tatoeba_nob_eng`	`tatoeba_nno_eng`	✅	序列到序列生成	机器翻译
NorRewrite-Instruct	`norrewrite_instruct`	❌	❌	序列到序列生成	指令跟随
NorSummarize-Instruct	`norsummarize_instruct`	❌	❌	序列到序列生成	指令跟随

👨🏻‍💻 安装和使用

安装 LM Evaluation Harness 并克隆仓库。

bash pip install --quiet https://github.com/EleutherAI/lm-evaluation-harness/archive/refs/tags/v0.4.8.tar.gz git clone https://github.com/ltgoslo/noreval.git

示例命令

零样本评估 NorQuAD： bash lm_eval --model hf --model_args pretrained=norallm/normistral-7b-warm --tasks norquad --include_path ./noreval/ --output results/norquad/0-shot/ --log_samples --show_config --write_out --batch_size auto --num_fewshot 0
一样本评估 NorQuAD： bash lm_eval --model hf --model_args pretrained=norallm/normistral-7b-warm --tasks norquad --include_path ./noreval/ --output results/norquad/0-shot/ --log_samples --show_config --write_out --batch_size auto --num_fewshot 1
零样本评估 ASK-GEC： bash lm_eval --model hf --model_args pretrained=norallm/normistral-7b-warm --tasks ask_gec --include_path ./noreval/ --output results/ask_gec/0-shot/ --log_samples --show_config --write_out --predict_only --batch_size auto --num_fewshot 0

📝 引用

bibtex @article{mikhailov2025noreval, title={NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark}, author={Mikhailov, Vladislav and Enstad, Tita and Samuel, David and Farseth{aa}s, Hans Christian and Kutuzov, Andrey and Velldal, Erik and {O}vrelid, Lilja}, journal={arXiv preprint arXiv:2504.07749}, year={2025} }

搜集汇总

数据集介绍

构建方式

NorEval数据集通过整合19个经过同行评审的现有数据集与5个全新构建的数据集，形成了一个多任务的挪威语理解与生成评估基准。构建过程中特别注重语言多样性，涵盖挪威语的两种官方书面标准——博克马尔语和新挪威语。数据集的设计遵循严格的评估原则，包括任务多样性、数据质量、提示敏感性和标准化评估，确保其在挪威语言、文化和价值观背景下的可靠性。

特点

NorEval数据集的特点在于其广泛的任务覆盖范围，包括情感分析、挪威语言知识、机器阅读理解、常识推理、机器翻译、文本摘要、指令跟随和真实性等九大任务类别。数据集不仅支持零样本评估，还提供多样化的提示语以应对模型对提示的敏感性。此外，数据集特别关注挪威语的语言多样性，为博克马尔语和新挪威语提供了专门的任务设置，填补了现有挪威语基准数据集的空白。

使用方法

使用NorEval数据集需要安装LM Evaluation Harness并克隆相关代码库。用户可以通过指定模型类型、任务名称和评估参数来运行评估，支持零样本和多样本评估模式。数据集的使用示例包括对特定任务的评估、任务组的评估以及生成任务的性能指标计算。评估结果可以保存为日志文件，便于后续分析和比较。数据集还提供了详细的配置文件和脚本，帮助用户灵活地进行模型评估和性能分析。

背景与挑战

背景概述

NorEval是由挪威奥斯陆大学等机构的研究团队于2025年推出的多任务挪威语理解与生成评估基准。该基准整合了19个经过同行评审的现有数据集，并创新性地构建了5个全新数据集，涵盖情感分析、机器阅读理解、常识推理等9大类任务。作为北欧地区首个全面支持挪威语两种官方书面标准（博克马尔语和新挪威语）的评估体系，NorEval通过严格的同行评审数据筛选机制和100+人工编写提示词的敏感性测试，为挪威语自然语言处理研究提供了标准化评估框架。该基准的建立显著填补了北欧语言在多样化NLP任务评估方面的空白，对推动挪威语语言模型的发展具有里程碑意义。

当前挑战

在领域问题层面，NorEval面临挪威语资源稀缺性与语言变体复杂性的双重挑战：博克马尔语与新挪威语的语法差异导致模型需要处理更复杂的形态变化；挪威特有文化知识（如习语理解）的评估缺乏可靠参照标准。数据集构建过程中，研究团队需克服低资源语言标注成本高昂的问题，特别是新挪威语标注者稀缺；同时需平衡两种书面变体的数据代表性，避免因博克马尔语数据主导而产生的评估偏差。此外，生成类任务（如机器翻译）的自动评估指标在低资源语言场景下的可靠性验证，也是构建过程中的关键技术瓶颈。

常用场景

经典使用场景

在挪威语自然语言处理领域，NorEval数据集为研究者提供了一个全面的多任务评估基准。该数据集整合了19个经过同行评审的现有数据集和5个新构建的数据集，覆盖了情感分析、机器阅读理解、常识推理、机器翻译等九大任务类别。其经典使用场景包括评估挪威语语言模型在多种任务上的性能，特别是在零样本和小样本学习环境下的表现。通过支持挪威语的两种官方书面标准（Bokmål和Nynorsk），NorEval为语言模型的跨方言评估提供了重要工具。

实际应用

在实际应用层面，NorEval数据集为挪威语相关的AI产品开发提供了重要支持。教育科技公司可以利用其机器阅读理解任务评估智能辅导系统的性能，新闻机构可基于文本摘要任务优化自动摘要生成工具。该数据集特别适合评估面向挪威市场的聊天机器人、智能客服等应用的语言理解与生成能力。政府部门在开发多语言公共服务系统时，也可借助该数据集确保系统对挪威语两种书面变体的平等支持。

衍生相关工作

NorEval数据集已衍生出多个重要研究方向和相关工作。基于该数据集，研究者开发了Normistral-7B等挪威语专用语言模型，并在机器翻译任务中实现了英语与挪威语两种变体间的双向性能评估。在学术研究方面，该数据集促进了挪威语提示工程领域的探索，相关成果发表在ACL、EMNLP等顶级会议。数据集还启发了对少数语言变体（如Nynorsk）在预训练语言模型中表征能力的系统性研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集