NorEval
收藏🇳🇴 NorEval 数据集概述
🔥 最新动态
10.04.2025: 预印本发布于 arXiv。09.04.2025: 发布 NorEval,包含标注指南和新数据集(NorRewrite-Instruct & NorSummarize-Instruct)。
😎 概述
NorEval 是一个多任务挪威语理解和生成评估基准,结合了19个现有同行评审数据集和5个新创建的数据集,覆盖9个任务类别。
主要特点
- 🌐 语言多样性:支持挪威语的两种官方书面标准:Bokmål 和 Nynorsk。
- 📊 任务多样性:覆盖多种挪威语任务,仅3个数据集被现有挪威基准包含。
- 🧠 数据质量:仅使用同行评审的人工创建数据集。
- 📏 提示敏感性:评估超过100个人工编写的提示。
- 👩🏻🔬 标准化评估:集成到 LM Evaluation Harness 中。
🗃️ 任务
数据集分为文本分类、句子排序、句子补全、多项选择问答、生成式问答和序列到序列生成任务。
任务列表
| 名称 | Bokmål | Nynorsk | k-shot | 任务类型 | 任务类别 |
|---|---|---|---|---|---|
| NoReC Sentence | norec_sentence |
❌ | ✅ | 文本分类 | 情感分析 |
| NoReC Document | norec_document |
❌ | ✅ | 文本分类 | 情感分析 |
| NCB | ncb |
❌ | ❌ | 句子排序 | 挪威语言知识 |
| NorIdiom | noridiom_nob |
noridiom_nno |
❌ | 句子补全 | 挪威语言知识 |
| Belebele | norbelebele |
❌ | ❌ | 多项选择问答 | 机器阅读理解 |
| NRK-Quiz-QA | nrk_quiz_qa_nob |
nrk_quiz_qa_nno |
❌ | 多项选择问答 | 挪威特定和世界知识 |
| NorOpenBookQA | noropenbookqa_nob |
noropenbookqa_nno |
✅ | 多项选择问答 | 挪威特定和世界知识 |
| NorCommonsenseQA | norcommonsenseqa_nob |
norcommonsenseqa_nno |
❌ | 多项选择问答 | 常识推理 |
| NorTruthfulQA Multiple choice | nortruthfulqa_mc_nob |
nortruthfulqa_mc_nno |
❌ | 多项选择问答 | 真实性 |
| NorQuAD | norquad |
❌ | ✅ | 生成式问答 | 机器阅读理解 |
| NorTruthfulQA Generation | nortruthfulqa_gen_nob |
nortruthfulqa_gen_nno |
❌ | 生成式问答 | 真实性 |
| ASK-GEC | ask_gec |
❌ | ✅ | 序列到序列生成 | 挪威语言知识 |
| NorSumm | norsumm_nob |
norsumm_nno |
✅ | 序列到序列生成 | 文本摘要 |
| Tatoeba (English → Bokmål/Nynorsk) | tatoeba_eng_nob |
tatoeba_eng_nno |
✅ | 序列到序列生成 | 机器翻译 |
| Tatoeba (Bokmål/Nynorsk → English) | tatoeba_nob_eng |
tatoeba_nno_eng |
✅ | 序列到序列生成 | 机器翻译 |
| NorRewrite-Instruct | norrewrite_instruct |
❌ | ❌ | 序列到序列生成 | 指令跟随 |
| NorSummarize-Instruct | norsummarize_instruct |
❌ | ❌ | 序列到序列生成 | 指令跟随 |
👨🏻💻 安装和使用
安装 LM Evaluation Harness 并克隆仓库。
bash pip install --quiet https://github.com/EleutherAI/lm-evaluation-harness/archive/refs/tags/v0.4.8.tar.gz git clone https://github.com/ltgoslo/noreval.git
示例命令
-
零样本评估 NorQuAD: bash lm_eval --model hf --model_args pretrained=norallm/normistral-7b-warm --tasks norquad --include_path ./noreval/ --output results/norquad/0-shot/ --log_samples --show_config --write_out --batch_size auto --num_fewshot 0
-
一样本评估 NorQuAD: bash lm_eval --model hf --model_args pretrained=norallm/normistral-7b-warm --tasks norquad --include_path ./noreval/ --output results/norquad/0-shot/ --log_samples --show_config --write_out --batch_size auto --num_fewshot 1
-
零样本评估 ASK-GEC: bash lm_eval --model hf --model_args pretrained=norallm/normistral-7b-warm --tasks ask_gec --include_path ./noreval/ --output results/ask_gec/0-shot/ --log_samples --show_config --write_out --predict_only --batch_size auto --num_fewshot 0
📝 引用
bibtex @article{mikhailov2025noreval, title={NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark}, author={Mikhailov, Vladislav and Enstad, Tita and Samuel, David and Farseth{aa}s, Hans Christian and Kutuzov, Andrey and Velldal, Erik and {O}vrelid, Lilja}, journal={arXiv preprint arXiv:2504.07749}, year={2025} }




