bgglue/bgglue
收藏数据集卡片:bgGLUE: 保加利亚通用语言理解评估基准
数据集描述
数据集概述
bgGLUE(保加利亚通用语言理解评估)是一个用于评估保加利亚语自然语言理解(NLU)任务的语言模型基准。该基准包括针对多种NLP问题(如自然语言推理、事实核查、命名实体识别、情感分析、问答等)和机器学习任务(序列标注、文档级分类和回归)的NLU任务。
支持的任务和排行榜
支持的任务列表:任务。
排行榜:bgGLUE排行榜。
语言
保加利亚语
数据集结构
数据实例
| 名称 | 任务类型 | 标识符 | 下载 | 更多信息 | 评估指标 | 训练/验证/测试 |
|---|---|---|---|---|---|---|
| Balto-Slavic NLP Shared Task | 命名实体识别 | BSNLP | URL | Info | F1 | 724 / 182 / 301 |
| CheckThat! (2021), Task 1A | 可信度估计 | CT21.T1 | URL | Info | 平均精度 | 2,995 / 350 / 357 |
| Cinexio Movie Reviews | 情感分析 | Cinexio | URL | Info | Pearson-Spearman Corr | 8,155 / 811 / 861 |
| Hack the News Datathon (2019) | 假新闻检测 | Fake-N | URL | Info | 二元F1 | 1,990 / 221 / 701 |
| In Search of Credible News | 幽默检测 | Cred.-N | URL | Info | 二元F1 | 19,227 / 5,949 / 17,887 |
| Multi-Subject High School Examinations Dataset | 多选题问答 | EXAMS | URL | Info | 准确率 | 1,512 / 365 / 1,472 |
| Universal Dependencies | 词性标注 | U.Dep | URL | Info | F1 | 8,907 / 1,115 / 1,116 |
| Cross-lingual Natural Language Inference | 自然语言推理 | XNLI | URL | Info | 准确率 | 392,702 / 5,010 / 2,490 |
| Cross-lingual Name Tagging and Linking (PAN-X / WikiAnn) | 命名实体识别 | PAN-X | URL | Info | F1 | 16,237 / 7,029 / 7,263 |
数据集创建
源数据
初始数据收集和规范化
在将数据集纳入bgGLUE基准之前,我们进行了预处理步骤。我们的主要目标是确保以一种原则性的方式评估模型的语言理解能力,并在多个领域中进行评估。由于所有数据集都是公开可用的,我们尽可能保留了原始设置。然而,我们发现一些数据集在其训练/开发/测试拆分中包含重复的示例,或者所有拆分都来自同一领域,这可能会高估模型的性能。因此,我们移除了数据泄露,并在需要时提出了基于主题或时间(即时间戳)的新数据拆分。我们基于两个归一化文本中的完全单词重叠来去重,即小写并排除所有停用词。
使用数据的注意事项
偏见讨论
bgGLUE中包含的数据集由人工标注者标注,他们的标注过程可能受到潜在偏见的影响。因此,bgGLUE中的数据集可能被误用来开发对个人或群体不公平的预测模型。因此,我们要求bgGLUE的用户注意这些潜在的偏见和误用风险。我们注意到,本基准中可能存在的任何偏见都是无意的,并不旨在造成伤害。
其他已知限制
bgGLUE中的任务
bgGLUE基准包括九个具有挑战性的NLU任务,包括三个标记分类任务、一个排序任务和五个文本分类任务。虽然我们在基准中涵盖了三种不同类型的任务,但我们受限于保加利亚语的可用资源,因此无法包括一些其他NLP任务,如语言生成。我们还仅考虑NLP任务,不包括其他/多种模态的任务。最后,一些任务的性质相似,例如,我们包括两个NER数据集和两个可信度/假新闻分类数据集。
bgGLUE中的领域
bgGLUE中包含的任务跨越多个领域,如社交媒体帖子、维基百科和新闻文章,可以测试短文档和长文档的理解能力。然而,每个任务仅限于一个领域,并且该领域内的主题不一定涵盖所有可能的主题。此外,一些任务的领域重叠,例如,Cred.-N和Fake-N中的文档都是新闻文章。
附加信息
许可信息
bgGLUE的主要任务建立在和源自现有数据集。我们建议用户参考每个数据集的原始许可。每个数据集的许可在其"任务"页面上列出。
引用信息
@inproceedings{hardalov-etal-2023-bgglue, title = "bg{GLUE}: A {B}ulgarian General Language Understanding Evaluation Benchmark", author = "Hardalov, Momchil and Atanasova, Pepa and Mihaylov, Todor and Angelova, Galia and Simov, Kiril and Osenova, Petya and Stoyanov, Veselin and Koychev, Ivan and Nakov, Preslav and Radev, Dragomir", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.487", pages = "8733--8759", }



