five

orai-nlp/basqueGLUE

收藏
Hugging Face2024-04-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/orai-nlp/basqueGLUE
下载链接
链接失效反馈
官方服务:
资源简介:
BasqueGLUE是一个用于巴斯克语的自然语言理解(NLU)基准测试,包含多个任务,如命名实体识别、意图分类、槽填充、主题分类、情感分析、立场检测、问答/自然语言推理、词义消歧和共指消解。数据集基于现有的巴斯克语数据集,并遵循GLUE和SuperGLUE的构建标准。BasqueGLUE旨在促进巴斯克语的NLU技术发展,并为该语言提供一个多任务评估框架。
提供机构:
orai-nlp
原始信息汇总

数据集概述

数据集描述

数据集名称: BasqueGLUE

语言: Basque (BCP-47 eu)

数据集大小: 100K<n<1M

数据集概述: BasqueGLUE 是首个针对 Basque 语言的自然语言理解(NLU)基准。该基准从现有的数据集中构建,遵循 GLUE 和 SuperGLUE 的构建标准。BasqueGLUE 包含九个不同的 Basque NLU 任务,覆盖多个领域和难度级别。

支持的任务和排行榜

BasqueGLUE 包含以下任务:

  1. NERCid - 新闻领域的命名实体识别(NER)。
  2. NERCood - 新闻和维基百科领域的命名实体识别(NER)。
  3. FMTODeu_intent - 对话系统中的意图分类。
  4. FMTODeu_slot - 对话系统中的槽填充。
  5. BHTCv2 - 新闻标题的主题分类。
  6. BEC2016eu - 关于 Basque 选举的推特情感分析。
  7. VaxxStance - 关于疫苗立场的社交媒体文本立场检测。
  8. QNLIeu - 基于维基百科的问答/自然语言推理(QA/NLI)。
  9. WiCeu - 基于 Wordnet 的词义消歧(WSD)。
  10. EpecKorrefBin - 新闻文档中的指代消解。

数据集结构

数据实例

每个任务的数据实例包括:

  • NERCid/NERCood - 包含 tokenstags 字段,分别表示文本标记和实体标签。
  • FMTODeu_intent - 包含 textlabel 字段,表示文本和意图标签。
  • FMTODeu_slot - 包含 tokenstags 字段,表示文本标记和槽标签。
  • BHTCv2 - 包含 textlabel 字段,表示文本和主题标签。
  • BEC2016eu - 包含 textlabel 字段,表示文本和情感标签。
  • VaxxStance - 包含 textlabel 字段,表示文本和立场标签。
  • QNLIeu - 包含 question, sentence, 和 label 字段,表示问题、句子及推理标签。
  • WiCeu - 包含 word, sentence1, sentence2, label, start1, start2, end1, end2 字段,表示词、两个句子及词义一致性标签。
  • EpecKorrefBin - 包含 text, label, span1_text, span2_text, span1_index, span2_index 字段,表示文本、核心参考标签及两个文本片段。

数据分割

每个任务的数据分割如下:

数据集 训练集 验证集 测试集
NERCid 51,539 12,936 35,855
NERCood 64,475 14,945 14,462
FMTODeu_intent 3,418 1,904 1,087
FMTODeu_slot 19,652 10,791 5,633
BHTCv2 8,585 1,857 1,854
BEC2016eu 6,078 1,302 1,302
VaxxStance 864 206 312
QNLIeu 1,764 230 238
WiCeu 408,559 600 1,400
EpecKorrefBin 986 320 587

数据集创建

创建理由: BasqueGLUE 旨在推动 Basque 语言的 NLU 工具发展,通过参考 GLUE 和 SuperGLUE 框架,利用现有数据集并创建新的数据集,以覆盖广泛的 NLU 任务。

附加信息

数据集管理者: Gorka Urbizu, Iñaki San Vicente, Xabier Saralegi, Rodrigo Agerri, Aitor Soroa

许可证信息: 每个数据集有自己的许可证,详情见各自的 README 文件。

引用信息: 见提供的引用文献。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作