forresty/xglue
收藏Hugging Face2024-04-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/forresty/xglue
下载链接
链接失效反馈官方服务:
资源简介:
XGLUE 是一个新的基准数据集,用于评估跨语言预训练模型在跨语言自然语言理解和生成任务上的表现。XGLUE 包含 11 个任务,涵盖 19 种语言。每个任务的训练数据仅以英语提供,这意味着要在 XGLUE 上取得成功,模型必须具备强大的零样本跨语言迁移能力,能够从特定任务的英语数据中学习并将其迁移到其他语言。与同期工作 XTREME 相比,XGLUE 有两个特点:首先,它同时包含跨语言自然语言理解(NLU)和跨语言自然语言生成(NLG)任务;其次,除了包括 5 个现有的跨语言任务(如 NER、POS、MLQA、PAWS-X 和 XNLI),XGLUE 还从 Bing 场景中选择了 6 个新任务,包括新闻分类(NC)、查询广告匹配(QADSM)、网页排名(WPR)、问答匹配(QAM)、问题生成(QG)和新闻标题生成(NTG)。这些语言、任务和任务来源的多样性为量化预训练模型在跨语言自然语言理解和生成上的质量提供了一个全面的基准。
XGLUE 是一个新的基准数据集,用于评估跨语言预训练模型在跨语言自然语言理解和生成任务上的表现。XGLUE 包含 11 个任务,涵盖 19 种语言。每个任务的训练数据仅以英语提供,这意味着要在 XGLUE 上取得成功,模型必须具备强大的零样本跨语言迁移能力,能够从特定任务的英语数据中学习并将其迁移到其他语言。与同期工作 XTREME 相比,XGLUE 有两个特点:首先,它同时包含跨语言自然语言理解(NLU)和跨语言自然语言生成(NLG)任务;其次,除了包括 5 个现有的跨语言任务(如 NER、POS、MLQA、PAWS-X 和 XNLI),XGLUE 还从 Bing 场景中选择了 6 个新任务,包括新闻分类(NC)、查询广告匹配(QADSM)、网页排名(WPR)、问答匹配(QAM)、问题生成(QG)和新闻标题生成(NTG)。这些语言、任务和任务来源的多样性为量化预训练模型在跨语言自然语言理解和生成上的质量提供了一个全面的基准。
提供机构:
forresty
原始信息汇总
数据集概述
数据集名称: XGLUE
语言: 支持多种语言,包括阿拉伯语(ar)、保加利亚语(bg)、德语(de)、希腊语(el)、英语(en)、西班牙语(es)、法语(fr)、印地语(hi)、意大利语(it)、荷兰语(nl)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)、斯瓦希里语(sw)、泰语(th)、土耳其语(tr)、乌尔都语(ur)、越南语(vi)、中文(zh)。
许可证: 遵循Universal Dependencies v2.5许可证。
多语言性: 支持多语言和翻译。
大小: 数据集大小分为多个类别,包括10K<n<100K和100K<n<1M。
源数据集: 包括扩展的conll2003、squad、xnli以及原始数据。
任务类别: 包括问答、摘要、文本分类、文本到文本生成、令牌分类。
任务ID: 包括可接受性分类、抽取式问答、命名实体识别、自然语言推理、新闻文章标题生成、开放域问答、解析、主题分类等。
数据集配置: 包括mlqa、nc、ner、ntg、paws-x、pos、qadsm、qam、qg、wpr、xnli等。
数据集结构
数据实例
- ner: 示例包括
words和ner字段,其中ner字段包含实体标签,如B-PER、I-PER等。 - pos: 示例包括
words和pos字段,其中pos字段包含词性标签,如ADJ、ADP等。 - mlqa: 示例包括
context、question和answers字段,其中answers字段包含答案的起始位置和文本。 - nc: 示例包括
news_title、news_body和news_category字段,其中news_category字段包含新闻类别标签。 - xnli: 示例包括
premise、hypothesis和label字段,其中label字段包含关系标签,如entailment、neutral等。 - paws-x: 示例包括
sentence1、sentence2和label字段,其中label字段包含句子关系标签,如same、different。 - qadsm: 示例包括
query、ad_title、ad_description和relevance_label字段,其中relevance_label字段包含相关性标签,如Bad、Good。 - wpr: 示例包括
query、web_page_title、web_page_snippet和relavance_label字段,其中relavance_label字段包含相关性标签,如Bad、Fair等。 - qam: 示例包括
question、answer和label字段,其中label字段包含答案真假标签,如False、True。 - qg: 示例包括
answer_passage和question字段。 - ntg: 示例包括
news_body和news_title字段。
数据字段
- ner:
words为字符串序列,ner为实体标签序列。 - pos:
words为字符串序列,pos为词性标签序列。 - mlqa:
context和question为字符串,answers为答案序列,包含起始位置和文本。 - nc:
news_title和news_body为字符串,news_category为类别标签。 - xnli:
premise和hypothesis为字符串,label为关系标签。 - paws-x:
sentence1和sentence2为字符串,label为句子关系标签。 - qadsm:
query、ad_title和ad_description为字符串,relevance_label为相关性标签。 - wpr:
query、web_page_title和web_page_snippet为字符串,relavance_label为相关性标签。 - qam:
question和answer为字符串,label为答案真假标签。 - qg:
answer_passage为字符串,question为字符串。 - ntg:
news_body为字符串,news_title为字符串。
数据分割
- ner: 包括训练集、多种语言的验证集和测试集。
- pos: 包括训练集、多种语言的验证集和测试集。
- mlqa: 包括训练集、多种语言的验证集和测试集。
- nc: 包括训练集、多种语言的验证集和测试集。
- xnli: 包括训练集、多种语言的验证集和测试集。
- paws-x: 包括训练集、多种语言的验证集和测试集。
- qadsm: 包括训练集、多种语言的验证集和测试集。
- wpr: 包括训练集、多种语言的验证集和测试集。
- qam: 包括训练集、多种语言的验证集和测试集。
- qg: 包括训练集、多种语言的验证集和测试集。
- ntg: 包括训练集、多种语言的验证集和测试集。
数据集创建
- 注释创建者: 数据集的注释和语言创建者包括众包、专家生成、发现和机器生成。
- 源数据: 数据集包括扩展和原始数据源。
- 注释: 数据集包含详细的注释,如实体标签、词性标签、答案起始位置等。
- 个人和敏感信息: 数据集处理中应注意个人和敏感信息的保护。
搜集汇总
数据集介绍

背景与挑战
背景概述
XGLUE是一个跨语言预训练模型评估基准,包含11个任务和19种语言,重点测试零样本跨语言迁移能力。其特色在于同时涵盖自然语言理解和生成任务,并引入了6个来自Bing场景的新任务,为跨语言能力评估提供全面基准。
以上内容由遇见数据集搜集并总结生成



