five

microsoft/xglue

收藏
Hugging Face2023-06-30 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/microsoft/xglue
下载链接
链接失效反馈
官方服务:
资源简介:
XGLUE 是一个新的基准数据集,用于评估跨语言预训练模型在跨语言自然语言理解和生成任务中的表现。XGLUE 包含 11 个任务,涵盖 19 种语言。对于每个任务,训练数据仅以英语提供,这意味着要在 XGLUE 上取得成功,模型必须具备强大的零样本跨语言迁移能力,能够从特定任务的英语数据中学习并将其迁移到其他语言。与同期工作 XTREME 相比,XGLUE 有两个特点:首先,它同时包含跨语言自然语言理解(NLU)和跨语言自然语言生成(NLG)任务;其次,除了包含 5 个现有的跨语言任务(即 NER、POS、MLQA、PAWS-X 和 XNLI),XGLUE 还从 Bing 场景中选择了 6 个新任务,包括新闻分类(NC)、查询广告匹配(QADSM)、网页排名(WPR)、问答匹配(QAM)、问题生成(QG)和新闻标题生成(NTG)。这种语言、任务和任务来源的多样性为量化预训练模型在跨语言自然语言理解和生成任务上的质量提供了一个全面的基准。

XGLUE 是一个新的基准数据集,用于评估跨语言预训练模型在跨语言自然语言理解和生成任务中的表现。XGLUE 包含 11 个任务,涵盖 19 种语言。对于每个任务,训练数据仅以英语提供,这意味着要在 XGLUE 上取得成功,模型必须具备强大的零样本跨语言迁移能力,能够从特定任务的英语数据中学习并将其迁移到其他语言。与同期工作 XTREME 相比,XGLUE 有两个特点:首先,它同时包含跨语言自然语言理解(NLU)和跨语言自然语言生成(NLG)任务;其次,除了包含 5 个现有的跨语言任务(即 NER、POS、MLQA、PAWS-X 和 XNLI),XGLUE 还从 Bing 场景中选择了 6 个新任务,包括新闻分类(NC)、查询广告匹配(QADSM)、网页排名(WPR)、问答匹配(QAM)、问题生成(QG)和新闻标题生成(NTG)。这种语言、任务和任务来源的多样性为量化预训练模型在跨语言自然语言理解和生成任务上的质量提供了一个全面的基准。
提供机构:
microsoft
原始信息汇总

数据集概述

名称: XGLUE

语言: 支持多种语言,包括阿拉伯语(ar)、保加利亚语(bg)、德语(de)、希腊语(el)、英语(en)、西班牙语(es)、法语(fr)、印地语(hi)、意大利语(it)、荷兰语(nl)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)、斯瓦希里语(sw)、泰语(th)、土耳其语(tr)、乌尔都语(ur)、越南语(vi)、中文(zh)。

许可证: 其他(Licence Universal Dependencies v2.5)

多语言性: 多语言(multilingual)和翻译(translation)

大小类别:

  • 10K<n<100K
  • 100K<n<1M

源数据集:

  • 扩展自 conll2003
  • 扩展自 squad
  • 扩展自 xnli
  • 原始数据

任务类别:

  • 问答
  • 摘要
  • 文本分类
  • 文本到文本生成
  • 令牌分类

任务ID:

  • acceptability-classification
  • extractive-qa
  • named-entity-recognition
  • natural-language-inference
  • news-articles-headline-generation
  • open-domain-qa
  • parsing
  • topic-classification

配置名称:

  • mlqa
  • nc
  • ner
  • ntg
  • paws-x
  • pos
  • qadsm
  • qam
  • qg
  • wpr
  • xnli

数据集结构

数据实例

ner

示例(test.nl): json { "ner": [ "O", "O", "O", "B-LOC", "O", "B-LOC", "O", "B-LOC", "O", "O", "O", "O", "O", "O", "O", "B-PER", "I-PER", "O", "O", "B-LOC", "O", "O" ],

pos

示例(test.en): json { "pos": [ "ADJ", "ADP", "ADV", "AUX", "CCONJ", "DET", "INTJ", "NOUN", "NUM", "PART", "PRON", "PROPN", "PUNCT", "SCONJ", "SYM", "VERB", "X" ],

mlqa

示例(test.en): json { "context": "...", "question": "...", "answers": [ { "answer_start": 123, "text": "..." } ] }

nc

示例(test.en): json { "news_title": "...", "news_body": "...", "news_category": "foodanddrink" }

xnli

示例(test.en): json { "premise": "...", "hypothesis": "...", "label": "entailment" }

paws-x

示例(test.en): json { "sentence1": "...", "sentence2": "...", "label": "same" }

qadsm

示例(test.en): json { "query": "...", "ad_title": "...", "ad_description": "...", "relevance_label": "Good" }

wpr

示例(test.en): json { "query": "...", "web_page_title": "...", "web_page_snippet": "...", "relavance_label": "Perfect" }

qam

示例(test.en): json { "question": "...", "answer": "...", "label": "True" }

qg

示例(test.en): json { "answer_passage": "...", "question": "..." }

ntg

示例(test.en): json { "news_body": "...", "news_title": "..." }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作