permitt/superglue-hr
收藏Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/permitt/superglue-hr
下载链接
链接失效反馈官方服务:
资源简介:
BalkanBench SuperGLUE - 克罗地亚语数据集是BalkanBench项目的一部分,旨在评估南斯拉夫语言的语言模型。该数据集包含克罗地亚语翻译的SuperGLUE基准任务,并经过人工验证。它包括5个任务配置(boolq、cb、copa、multirc、rte),分别有训练集、验证集和测试集,但测试集仅存在于私有仓库中。数据集适用于文本分类、多项选择和问答等任务,并遵循原始SuperGLUE的方法论,包括固定的数据分割和私有的测试标签。数据集采用CC-BY-4.0许可,并由Recrewty赞助。
许可证: CC BY 4.0
语言:
- 克罗地亚语(hr为ISO 639-1语言代码)
多语言属性: 单语种
展示名称: BalkanBench SuperGLUE - 克罗地亚语版
样本规模类别:
- 10000 < 样本量 < 100000
源数据集:
- 扩展|SuperGLUE
任务类别:
- 文本分类
- 多项选择
- 问答任务
标签:
- BalkanBench
- BCMS
- 克罗地亚语
- SuperGLUE
- 自然语言理解(NLU)
- 基准测试
配置项:
- 配置名称: boolq
数据文件:
- 拆分: 训练集
路径: boolq/train-00000-of-00001.parquet(Parquet格式)
- 拆分: 验证集
路径: boolq/validation-00000-of-00001.parquet(Parquet格式)
- 配置名称: cb
数据文件:
- 拆分: 训练集
路径: cb/train-00000-of-00001.parquet(Parquet格式)
- 拆分: 验证集
路径: cb/validation-00000-of-00001.parquet(Parquet格式)
- 配置名称: copa
数据文件:
- 拆分: 训练集
路径: copa/train-00000-of-00001.parquet(Parquet格式)
- 拆分: 验证集
路径: copa/validation-00000-of-00001.parquet(Parquet格式)
- 配置名称: multirc
数据文件:
- 拆分: 训练集
路径: multirc/train-00000-of-00001.parquet(Parquet格式)
- 拆分: 验证集
路径: multirc/validation-00000-of-00001.parquet(Parquet格式)
- 配置名称: rte
数据文件:
- 拆分: 训练集
路径: rte/train-00000-of-00001.parquet(Parquet格式)
- 拆分: 验证集
路径: rte/validation-00000-of-00001.parquet(Parquet格式)
# 巴尔干基准(BalkanBench)SuperGLUE - 克罗地亚语版
> **本数据集属于[BalkanBench](https://balkanbench.com)项目**——面向塞尔维亚语、克罗地亚语、黑山语和波斯尼亚语(BCMS,即Bosnian-Croatian-Montenegrin-Serbian)的开源可复现语言模型基准测试平台。实时排行榜可访问<https://balkanbench.com/leaderboard>。背景信息:[BalkanBench发布——项目背后的愿景(Medium,2026-04-27)](https://medium.com/@permitt/release-of-balkanbench-vision-behind-it-fd1ba73be411)。
本数据集为BalkanBench v0.1版本发布的**克罗地亚语SuperGLUE预览赛道**,与官方冻结版塞尔维亚语赛道及黑山语赛道同步推出,共包含5项任务:采用统一评分规则与私有测试集标签,暂未适配威诺格拉德模式挑战赛(Winograd Schema Challenge,WSC)。
## 数据集内容
5个任务配置项,包含完整的训练集、验证集与公开测试集拆分(训练集与验证集已标注;**测试集仅存放在带权限控制的关联仓库**中,详见下文):
| 配置名称 | 测试任务内容 | 训练集 | 验证集 | 测试集 |
|---------|------------------------------------------------------------------|-------:|-------:|------:|
| boolq | 基于段落的是非问答任务 | 9,427 | 3,270 | 3,245 |
| cb | 三分类文本蕴含任务(蕴含/矛盾/中立) | 250 | 56 | 250 |
| copa | 双选项因果推理任务 | 400 | 100 | 500 |
| multirc | 多句阅读理解任务(存在多个正确答案) | 27,243 | 4,848 | 9,693 |
| rte | 二分类文本蕴含任务 | 2,490 | 277 | 3,000 |
| **总计** | | **39,810** | **8,551** | **16,688** |
数据集总规模为**65,049条样本**。v0.1版本中,威诺格拉德模式挑战赛(WSC)与AX-b/AX-g诊断任务仅支持塞尔维亚语赛道,待克罗地亚语适配完成后将在后续版本中加入。
## 测试集权限控制
所有配置的`test`测试集**仅存放在带权限控制的关联仓库**中(包含输入与标签):[`permitt/superglue-hr-private`](https://huggingface.co/datasets/permitt/superglue-hr-private),仅官方评分流水线可访问。如需获取排行榜评分,请使用`balkanbench predict`工具在公开测试输入上生成预测结果,再通过[提交流程](https://balkanbench.com)提交。
## 数据集加载
python
from datasets import load_dataset
# 加载布尔问答任务数据集
boolq = load_dataset("permitt/superglue-hr", "boolq")
print(boolq["train"][0])
# 加载所有参评任务数据集
for cfg in ["boolq", "cb", "copa", "rte", "multirc"]:
ds = load_dataset("permitt/superglue-hr", cfg)
print(cfg, {sp: len(ds[sp]) for sp in ds})
如需实现可复现的运行,请固定版本修订号:
python
load_dataset("permitt/superglue-hr", "boolq", revision="v0.1.0-data")
## 数据格式规范
每条样本包含整数类型的行ID`idx`、任务专属输入字段以及`label`标签列。以`cb`任务为例:
python
{
"idx": 0,
"前提": "Polly je morala brzo razmišljati. ...",
"假设": "Polly nije bila iskusna oceanska jedriličarka",
"label": 0, # 0=蕴含,1=矛盾,2=中立
}
各任务的字段列表可在BalkanBench源代码仓库中查阅。
## 构建方法
- **翻译流程**:将原始英文SuperGLUE数据集翻译为克罗地亚语,并由母语使用者进行人工校验。
- **固定拆分**:训练集、验证集、测试集的样本数量与ID已固定在版本标签`v0.1.0-data`。
- **测试集标签私有**:详情请见上文提及的带权限控制的关联仓库。
## 引用方式
若您使用本数据集,请引用塞尔维亚语SuperGLUE论文(本文采用的BCMS适配方法即出自该论文)、原始SuperGLUE论文以及BalkanBench发布论文:
bibtex
@inproceedings{perovic-mihajlov-2026-serbian,
title = "{S}erbian {S}uper{GLUE}: Towards an Evaluation Benchmark for {S}outh {S}lavic Language Models",
author = "Perovic, Mitar and Mihajlov, Teodora",
editor = "Hettiarachchi, Hansi and Ranasinghe, Tharindu and Plum, Alistair and
Rayson, Paul and Mitkov, Ruslan and Gaber, Mohamed and Premasiri, Damith and
Tan, Fiona Anting and Uyangodage, Lasitha",
booktitle = "Proceedings of the Second Workshop on Language Models for Low-Resource Languages (LoResLM 2026)",
month = mar,
year = "2026",
address = "Rabat, Morocco",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2026.loreslm-1.30/",
doi = "10.18653/v1/2026.loreslm-1.30",
pages = "347--361",
ISBN = "979-8-89176-377-7"
}
@inproceedings{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and
Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
booktitle={NeurIPS},
year={2019}
}
@misc{balkanbench2026superglue_hr,
title={BalkanBench SuperGLUE-HR: Croatian SuperGLUE for the BCMS evaluation suite},
author={Perović, Mitar and contributors},
year={2026},
howpublished={url{https://huggingface.co/datasets/permitt/superglue-hr}},
note={Part of BalkanBench v0.1, url{https://balkanbench.com}}
}
## 许可证
采用CC BY 4.0许可证(与原始SuperGLUE源数据集许可证一致)。
## 资助方
官方v0.1版本评估所需的计算资源由**[Recrewty](https://recrewty.com)**资助。
## 相关链接
- 实时排行榜: <https://balkanbench.com/leaderboard>
- 项目主页: <https://balkanbench.com>
- 背景信息: [BalkanBench发布——项目背后的愿景(Medium)](https://medium.com/@permitt/release-of-balkanbench-vision-behind-it-fd1ba73be411)
- 源代码: <https://github.com/permitt/balkan-bench>
- 关联赛道: [SuperGLUE-SR(塞尔维亚语,官方赛道)](https://huggingface.co/datasets/permitt/superglue-sr) · [SuperGLUE-MNE(黑山语)](https://huggingface.co/datasets/permitt/superglue-mne)
- 私有(带权限控制)标签数据集: <https://huggingface.co/datasets/permitt/superglue-hr-private>
提供机构:
permitt



