bgglue/bgglue

Name: bgglue/bgglue
Creator: bgglue
Published: 2023-08-06 15:22:26
License: 暂无描述

Hugging Face2023-08-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bgglue/bgglue

下载链接

链接失效反馈

官方服务：

资源简介：

bgGLUE（保加利亚通用语言理解评估）是一个用于评估保加利亚语自然语言理解（NLU）任务的基准。该基准包括针对各种NLP问题的NLU任务（例如，自然语言推理、事实核查、命名实体识别、情感分析、问答等）和机器学习任务（序列标注、文档级分类和回归）。

提供机构：

bgglue

原始信息汇总

数据集卡片：bgGLUE: 保加利亚通用语言理解评估基准

数据集描述

数据集概述

bgGLUE（保加利亚通用语言理解评估）是一个用于评估保加利亚语自然语言理解（NLU）任务的语言模型基准。该基准包括针对多种NLP问题（如自然语言推理、事实核查、命名实体识别、情感分析、问答等）和机器学习任务（序列标注、文档级分类和回归）的NLU任务。

支持的任务和排行榜

支持的任务列表：任务。

排行榜：bgGLUE排行榜。

语言

保加利亚语

数据集结构

数据实例

名称	任务类型	标识符	下载	更多信息	评估指标	训练/验证/测试
Balto-Slavic NLP Shared Task	命名实体识别	BSNLP	URL	Info	F1	724 / 182 / 301
CheckThat! (2021), Task 1A	可信度估计	CT21.T1	URL	Info	平均精度	2,995 / 350 / 357
Cinexio Movie Reviews	情感分析	Cinexio	URL	Info	Pearson-Spearman Corr	8,155 / 811 / 861
Hack the News Datathon (2019)	假新闻检测	Fake-N	URL	Info	二元F1	1,990 / 221 / 701
In Search of Credible News	幽默检测	Cred.-N	URL	Info	二元F1	19,227 / 5,949 / 17,887
Multi-Subject High School Examinations Dataset	多选题问答	EXAMS	URL	Info	准确率	1,512 / 365 / 1,472
Universal Dependencies	词性标注	U.Dep	URL	Info	F1	8,907 / 1,115 / 1,116
Cross-lingual Natural Language Inference	自然语言推理	XNLI	URL	Info	准确率	392,702 / 5,010 / 2,490
Cross-lingual Name Tagging and Linking (PAN-X / WikiAnn)	命名实体识别	PAN-X	URL	Info	F1	16,237 / 7,029 / 7,263

数据集创建

源数据

初始数据收集和规范化

在将数据集纳入bgGLUE基准之前，我们进行了预处理步骤。我们的主要目标是确保以一种原则性的方式评估模型的语言理解能力，并在多个领域中进行评估。由于所有数据集都是公开可用的，我们尽可能保留了原始设置。然而，我们发现一些数据集在其训练/开发/测试拆分中包含重复的示例，或者所有拆分都来自同一领域，这可能会高估模型的性能。因此，我们移除了数据泄露，并在需要时提出了基于主题或时间（即时间戳）的新数据拆分。我们基于两个归一化文本中的完全单词重叠来去重，即小写并排除所有停用词。

使用数据的注意事项

偏见讨论

bgGLUE中包含的数据集由人工标注者标注，他们的标注过程可能受到潜在偏见的影响。因此，bgGLUE中的数据集可能被误用来开发对个人或群体不公平的预测模型。因此，我们要求bgGLUE的用户注意这些潜在的偏见和误用风险。我们注意到，本基准中可能存在的任何偏见都是无意的，并不旨在造成伤害。

其他已知限制

bgGLUE中的任务

bgGLUE基准包括九个具有挑战性的NLU任务，包括三个标记分类任务、一个排序任务和五个文本分类任务。虽然我们在基准中涵盖了三种不同类型的任务，但我们受限于保加利亚语的可用资源，因此无法包括一些其他NLP任务，如语言生成。我们还仅考虑NLP任务，不包括其他/多种模态的任务。最后，一些任务的性质相似，例如，我们包括两个NER数据集和两个可信度/假新闻分类数据集。

bgGLUE中的领域

bgGLUE中包含的任务跨越多个领域，如社交媒体帖子、维基百科和新闻文章，可以测试短文档和长文档的理解能力。然而，每个任务仅限于一个领域，并且该领域内的主题不一定涵盖所有可能的主题。此外，一些任务的领域重叠，例如，Cred.-N和Fake-N中的文档都是新闻文章。

附加信息

许可信息

bgGLUE的主要任务建立在和源自现有数据集。我们建议用户参考每个数据集的原始许可。每个数据集的许可在其"任务"页面上列出。

引用信息

@inproceedings{hardalov-etal-2023-bgglue, title = "bg{GLUE}: A {B}ulgarian General Language Understanding Evaluation Benchmark", author = "Hardalov, Momchil and Atanasova, Pepa and Mihaylov, Todor and Angelova, Galia and Simov, Kiril and Osenova, Petya and Stoyanov, Veselin and Koychev, Ivan and Nakov, Preslav and Radev, Dragomir", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.487", pages = "8733--8759", }

贡献者

bgGLUE贡献者列表

5,000+

优质数据集

54 个

任务类型

进入经典数据集