skLEP: A Slovak General Language Understanding Benchmark

github2025-06-27 更新2025-07-28 收录

下载链接：

https://github.com/slovak-nlp/sklep

下载链接

链接失效反馈

官方服务：

资源简介：

skLEP是一个用于评估斯洛伐克自然语言理解（NLU）模型的GLUE风格基准。

skLEP is a GLUE-style benchmark for evaluating Slovak natural language understanding (NLU) models.

创建时间：

2025-06-27

原始信息汇总

skLEP: 斯洛伐克通用语言理解基准数据集

数据集概述

数据集名称：skLEP
数据集类型：自然语言理解（NLU）基准测试
语言：斯洛伐克语
风格：GLUE-style基准测试

主要任务

问答（qa）
语义文本相似度（sts）
自然语言推理（nli）
文本蕴含（rte）
仇恨言论检测（hate）
情感分析（sentiment）
命名实体识别（uner）
Wikigold（wikigold）
词性标注（pos）

评估方法

评估脚本：sklep_run.sh
支持参数：
- --tasks：指定任务列表
- --model_name：指定Hugging Face模型
- --out_dir：输出目录
- --wandb：Weights & Biases项目名称
- --cuda：CUDA设备列表
支持超参数优化（参数扫描）

使用示例

bash ./eval/sklep_run.sh --tasks=all --model_name=gerulata/slovakbert

许可证

MIT License

引用

bibtex @misc{suppa2025sklepslovakgenerallanguage, title={skLEP: A Slovak General Language Understanding Benchmark}, author={Marek Šuppa and Andrej Ridzik and Daniel Hládek and Tomáš Javůrek and Viktória Ondrejová and Kristína Sásiková and Martin Tamajka and Marián Šimko}, year={2025}, eprint={2506.21508}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.21508}, }

搜集汇总

数据集介绍

构建方式

在斯洛伐克自然语言处理研究领域，skLEP数据集采用GLUE基准框架的设计理念，通过整合多元化的语言理解任务构建而成。该数据集涵盖了问答系统、语义相似度、自然语言推理等八项核心任务，数据来源包括人工标注的文本语料和经过预处理的公开数据集，确保了语言样本的多样性和代表性。构建过程中特别注重斯洛伐克语的语法特性和语言习惯，采用分层抽样方法平衡不同文本类型的分布。

特点

作为首个专注于斯洛伐克语的综合性语言理解基准，skLEP数据集具有显著的语种特色和技术优势。其任务设置既包含传统的文本分类和序列标注，也创新性地融入了仇恨言论检测等社会计算任务。数据集提供标准化的评估协议和预处理脚本，支持与Hugging Face生态无缝对接。特别值得注意的是，该基准设计了参数扫描功能，允许研究者系统探索不同超参数对模型性能的影响。

使用方法

研究者可通过uv环境管理工具快速部署实验环境，使用模块化的评估脚本进行灵活测试。基准测试支持单任务评估和全任务批量运行两种模式，通过命令行参数即可指定待评估模型和计算设备。与Weights & Biases平台的深度整合实现了实验数据的可视化追踪，而预定义的超参数扫描模板则大幅简化了模型调优流程。用户只需按照标准格式准备斯洛伐克语文本数据，即可利用该基准全面评估模型在各项NLU任务上的表现。

背景与挑战

背景概述

skLEP是由Marek Šuppa等研究人员于2025年推出的斯洛伐克通用语言理解基准测试，旨在填补斯拉夫语系中低资源语言在自然语言处理领域的空白。该数据集由斯洛伐克学术界联合构建，采用GLUE风格的设计范式，包含问答系统、语义文本相似度、自然语言推理等八大核心任务，为评估斯洛伐克语预训练模型的综合能力提供了标准化测试平台。作为首个针对斯洛伐克语的系统性评估基准，其发布显著推动了中东欧地区语言模型的研发进程，并为跨语言迁移学习研究提供了重要数据支撑。

当前挑战

在领域问题层面，skLEP需应对斯洛伐克语复杂的形态学特性与有限标注资源之间的矛盾，其屈折变化丰富的特点导致传统单语模型难以捕捉深层语义关联。构建过程中，研究团队面临低资源语言特有的数据稀疏问题，需通过半监督学习和专家标注相结合的方式解决语料质量不均衡的难题。多任务评估框架的设计要求不同NLU任务间的指标具有可比性，这对评分体系的标准化提出了严峻考验。此外，方言变体与标准语的差异使得数据清洗环节需要额外的语言学专业知识支持。

常用场景

经典使用场景

在自然语言处理领域，skLEP数据集为斯洛伐克语的语言理解任务提供了一个全面的评估基准。该数据集涵盖了问答系统、语义相似度计算、自然语言推理、情感分析等多个经典任务，为研究人员提供了一个标准化的测试平台。通过统一的评估框架，研究者能够系统地比较不同模型在斯洛伐克语任务上的性能表现，从而推动该语言在NLP领域的发展。

衍生相关工作

基于skLEP数据集，研究者已开发出多个斯洛伐克语预训练模型，如SlovakBERT等。该基准还催生了针对特定任务的改进算法，在语义相似度计算和命名实体识别等方向产出了创新成果。相关研究论文被广泛应用于跨语言迁移学习领域，为低资源语言处理提供了重要参考。

数据集最近研究