skLEP
收藏arXiv2025-06-27 更新2025-06-28 收录
下载链接:
https://github.com/slovak-nlp/sklep
下载链接
链接失效反馈官方服务:
资源简介:
skLEP是一个全面的斯洛伐克自然语言理解(NLU)模型评估基准,包含九项多样化的任务,涵盖了词级、句对和文档级挑战。为了构建这个基准,作者们精心挑选了专为斯洛伐克设计的新原始数据集,并仔细翻译了成熟的英语NLU资源。该论文还首次系统地评估了斯洛伐克特定、多语言和英语预训练语言模型在skLEP任务上的表现。为了促进可重复性和推动斯洛伐克NLU的未来研究,作者们发布了完整的基准数据、一个开源工具包和一个公共排行榜。
skLEP is a comprehensive Slovak natural language understanding (NLU) model evaluation benchmark, which encompasses nine diverse tasks covering word-level, sentence-pair, and document-level challenges. To construct this benchmark, the authors carefully curated new original datasets designed specifically for Slovak, and meticulously translated well-established English NLU resources. This paper also presents the first systematic evaluation of Slovak-specific, multilingual, and English pre-trained language models on the skLEP tasks. To facilitate reproducibility and advance future research on Slovak NLU, the authors have released the full benchmark dataset, an open-source toolkit, and a public leaderboard.
提供机构:
Comenius University in Bratislava, Slovakia, Cisco Systems, Technical University of Košice, Slovakia, Kempelen Institute of Intelligent Technologies, Bratislava, Slovakia
创建时间:
2025-06-27
原始信息汇总
skLEP: 斯洛伐克通用语言理解基准
数据集概述
- 数据集名称:skLEP
- 类型:GLUE风格基准
- 用途:评估斯洛伐克自然语言理解(NLU)模型
评估任务
- 可用任务:
qa,sts,nli,rte,hate,sentiment,uner,wikigold,pos - 支持全任务运行:使用
all参数
使用方法
基本评估
- 脚本:
sklep_run.sh - 主要参数:
--tasks:指定任务列表--model_name:指定Hugging Face模型--out_dir:输出目录--wandb:Weights & Biases项目名--cuda:CUDA设备列表
参数扫描
- 支持超参数优化
- 使用
--sweep标志 - 可调参数:训练周期、学习率、预热比例、dropout等
引用信息
- 许可证:MIT License
- 论文:https://arxiv.org/abs/2506.21508
- BibTeX引用格式: bibtex @misc{suppa2025sklepslovakgenerallanguage, title={skLEP: A Slovak General Language Understanding Benchmark}, author={Marek Šuppa and Andrej Ridzik and Daniel Hládek and Tomáš Javůrek and Viktória Ondrejová and Kristína Sásiková and Martin Tamajka and Marián Šimko}, year={2025}, eprint={2506.21508}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.21508}, }
搜集汇总
数据集介绍

构建方式
skLEP作为首个针对斯洛伐克语自然语言理解(NLU)的综合评估基准,其构建过程融合了多源数据集整合与跨语言迁移策略。研究团队通过两种核心方法构建数据集:一是精心筛选并标注斯洛伐克本土语言资源,如从斯洛伐克依存树库中提取词性标注(UD)和命名实体识别(UNER)数据;二是采用机器翻译与人工后编辑相结合的方式,将英文NLU经典数据集(如RTE、NLI、STS)转化为斯洛伐克语版本,翻译过程使用DeepL等先进系统并经过母语者校验。针对数据缺失的任务(如仇恨言论检测HS),通过社交媒体文本爬取、聚类去噪后由专家标注完成。所有数据集均经过去重处理和标准化分割,确保训练集、验证集与测试集的科学划分。
特点
该基准涵盖三大类九项任务,全面评估语言模型的多维度理解能力:1)词元级任务(UD词性标注、UNER和WGSK命名实体识别)检验基础语言结构分析能力;2)句对任务(RTE文本蕴含、NLI自然语言推理、STS语义相似度)评估逻辑关系建模水平;3)文档级任务(HS仇恨言论分类、SA情感分析、QA问答系统)测试复杂语境理解。其显著特色在于:首次实现斯洛伐克语NLU任务的系统化覆盖,通过混合本土构建与翻译数据解决资源稀缺问题;所有翻译测试集均经人工后编辑,质量评估显示后编辑使28/30样本质量提升;任务设计保留原始语言特性,如WGSK采用BSNLP-2017标注体系扩展MISC类别,HS数据集通过投票聚合机制处理标注分歧。
使用方法
研究者可通过HuggingFace框架接入skLEP基准,利用其开源工具包实现模型微调与评估。标准流程包括:1)任务适配——根据三类任务选择对应处理架构(如BiLSTM-CRF用于词元分类,BERT架构处理句对交互);2)超参数优化——建议采用网格搜索确定学习率(1e-5至5e-5)、训练轮次(1-10 epoch)等参数,基准测试显示XLM-RLarge在多数任务表现最优;3)多维度评估——除常规准确率/F1值外,创新性引入相对错误降低率(RER)解决不同任务指标量纲差异问题。团队提供标准化排行榜支持模型性能对比,并建议结合人类基线(如母语者标注准确率)解读结果。对于生成式模型,可通过提示工程适配部分分类任务,但需注意基准设计更适配编码器架构的微调范式。
背景与挑战
背景概述
skLEP是首个专门为评估斯洛伐克自然语言理解(NLU)模型设计的综合性基准测试,由斯洛伐克多所研究机构的研究人员于2025年6月提出。该基准测试整合了九项多样化任务,涵盖词元级、句子对和文档级挑战,旨在全面评估模型能力。skLEP的构建不仅包含针对斯洛伐克语的新数据集,还包括对已有英语NLU资源的精心翻译。这一基准的发布填补了斯洛伐克语在NLU评估工具上的空白,为斯洛伐克语的语言模型研究提供了标准化评估平台。
当前挑战
skLEP面临的挑战主要包括两方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,斯洛伐克语作为一种中等资源语言,缺乏高质量的标注数据集,这限制了模型在复杂任务(如问答和文本蕴含)上的性能评估。构建过程中的挑战包括:1)数据集的翻译质量,尤其是自动翻译可能引入的翻译腔问题;2)任务多样性不足,现有任务之间存在相似性,难以全面覆盖NLU的各个方面;3)评估方法的局限性,当前基准主要针对编码器-仅Transformer模型设计,对生成式模型的适用性有限。此外,斯洛伐克语特定模型的规模普遍较小,与多语言模型相比存在性能差距。
常用场景
经典使用场景
在自然语言处理领域,skLEP数据集作为首个针对斯洛伐克语的综合性语言理解评估基准,其经典使用场景包括多任务模型性能评估与跨语言迁移研究。该数据集通过整合词级标注(如词性标注、命名实体识别)、句对任务(如文本蕴含、自然语言推理)及文档级分类(如情感分析、仇恨言论检测)三类任务,为研究者提供了从微观语法到宏观语义的全方位评估框架。其设计灵感源自GLUE基准,但针对斯洛伐克语的语言特性(如丰富的屈折变化和斯拉夫语系语法结构)进行了本地化适配,尤其适用于验证模型在低资源语言中的泛化能力。
实际应用
在实际应用层面,skLEP为斯洛伐克语NLP产品的开发提供了关键支撑。例如在客户服务领域,基于其情感分析数据集训练的模型可自动识别用户评价中的情绪倾向;在内容审核场景中,仇恨言论分类任务能帮助社交媒体平台高效检测违规文本。数据集中的问答系统评估模块(SK-QuAD)可直接应用于智能客服或教育辅助系统开发。此外,该基准的开源工具包与标准化排行榜显著降低了企业部署本地化语言模型的技术门槛,推动了斯洛伐克语区AI应用的商业化落地。
衍生相关工作
skLEP的发布催生了一系列延伸研究,包括斯洛伐克语特定模型的优化(如HPLT BERTbase−sk的词汇表重构)和跨语言评估框架的改进。其方法论启发了类似低资源语言基准的构建,如捷克语CE-MATRIX和乌克兰语UA-SuperGLUE的开发。在技术层面,数据集采用的相对错误减少率(RER)评估指标被后续工作(如DUMB荷兰语基准)广泛采纳。此外,其翻译-后编辑双阶段数据构建流程为其他语言资源稀缺地区(如波罗的海语系)的数据集创建提供了可复制的技术范式。
以上内容由遇见数据集搜集并总结生成



