orai-nlp/basqueGLUE
收藏Hugging Face2024-04-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/orai-nlp/basqueGLUE
下载链接
链接失效反馈官方服务:
资源简介:
BasqueGLUE是一个用于巴斯克语的自然语言理解(NLU)基准测试,包含多个任务,如命名实体识别、意图分类、槽填充、主题分类、情感分析、立场检测、问答/自然语言推理、词义消歧和共指消解。数据集基于现有的巴斯克语数据集,并遵循GLUE和SuperGLUE的构建标准。BasqueGLUE旨在促进巴斯克语的NLU技术发展,并为该语言提供一个多任务评估框架。
提供机构:
orai-nlp
原始信息汇总
数据集概述
数据集描述
数据集名称: BasqueGLUE
语言: Basque (BCP-47 eu)
数据集大小: 100K<n<1M
数据集概述: BasqueGLUE 是首个针对 Basque 语言的自然语言理解(NLU)基准。该基准从现有的数据集中构建,遵循 GLUE 和 SuperGLUE 的构建标准。BasqueGLUE 包含九个不同的 Basque NLU 任务,覆盖多个领域和难度级别。
支持的任务和排行榜
BasqueGLUE 包含以下任务:
- NERCid - 新闻领域的命名实体识别(NER)。
- NERCood - 新闻和维基百科领域的命名实体识别(NER)。
- FMTODeu_intent - 对话系统中的意图分类。
- FMTODeu_slot - 对话系统中的槽填充。
- BHTCv2 - 新闻标题的主题分类。
- BEC2016eu - 关于 Basque 选举的推特情感分析。
- VaxxStance - 关于疫苗立场的社交媒体文本立场检测。
- QNLIeu - 基于维基百科的问答/自然语言推理(QA/NLI)。
- WiCeu - 基于 Wordnet 的词义消歧(WSD)。
- EpecKorrefBin - 新闻文档中的指代消解。
数据集结构
数据实例
每个任务的数据实例包括:
- NERCid/NERCood - 包含
tokens和tags字段,分别表示文本标记和实体标签。 - FMTODeu_intent - 包含
text和label字段,表示文本和意图标签。 - FMTODeu_slot - 包含
tokens和tags字段,表示文本标记和槽标签。 - BHTCv2 - 包含
text和label字段,表示文本和主题标签。 - BEC2016eu - 包含
text和label字段,表示文本和情感标签。 - VaxxStance - 包含
text和label字段,表示文本和立场标签。 - QNLIeu - 包含
question,sentence, 和label字段,表示问题、句子及推理标签。 - WiCeu - 包含
word,sentence1,sentence2,label,start1,start2,end1,end2字段,表示词、两个句子及词义一致性标签。 - EpecKorrefBin - 包含
text,label,span1_text,span2_text,span1_index,span2_index字段,表示文本、核心参考标签及两个文本片段。
数据分割
每个任务的数据分割如下:
| 数据集 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| NERCid | 51,539 | 12,936 | 35,855 |
| NERCood | 64,475 | 14,945 | 14,462 |
| FMTODeu_intent | 3,418 | 1,904 | 1,087 |
| FMTODeu_slot | 19,652 | 10,791 | 5,633 |
| BHTCv2 | 8,585 | 1,857 | 1,854 |
| BEC2016eu | 6,078 | 1,302 | 1,302 |
| VaxxStance | 864 | 206 | 312 |
| QNLIeu | 1,764 | 230 | 238 |
| WiCeu | 408,559 | 600 | 1,400 |
| EpecKorrefBin | 986 | 320 | 587 |
数据集创建
创建理由: BasqueGLUE 旨在推动 Basque 语言的 NLU 工具发展,通过参考 GLUE 和 SuperGLUE 框架,利用现有数据集并创建新的数据集,以覆盖广泛的 NLU 任务。
附加信息
数据集管理者: Gorka Urbizu, Iñaki San Vicente, Xabier Saralegi, Rodrigo Agerri, Aitor Soroa
许可证信息: 每个数据集有自己的许可证,详情见各自的 README 文件。
引用信息: 见提供的引用文献。



