forresty/xglue

Name: forresty/xglue
Creator: forresty
Published: 2024-04-19 04:33:58
License: 暂无描述

Hugging Face2024-04-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/forresty/xglue

下载链接

链接失效反馈

官方服务：

资源简介：

XGLUE 是一个新的基准数据集，用于评估跨语言预训练模型在跨语言自然语言理解和生成任务上的表现。XGLUE 包含 11 个任务，涵盖 19 种语言。每个任务的训练数据仅以英语提供，这意味着要在 XGLUE 上取得成功，模型必须具备强大的零样本跨语言迁移能力，能够从特定任务的英语数据中学习并将其迁移到其他语言。与同期工作 XTREME 相比，XGLUE 有两个特点：首先，它同时包含跨语言自然语言理解（NLU）和跨语言自然语言生成（NLG）任务；其次，除了包括 5 个现有的跨语言任务（如 NER、POS、MLQA、PAWS-X 和 XNLI），XGLUE 还从 Bing 场景中选择了 6 个新任务，包括新闻分类（NC）、查询广告匹配（QADSM）、网页排名（WPR）、问答匹配（QAM）、问题生成（QG）和新闻标题生成（NTG）。这些语言、任务和任务来源的多样性为量化预训练模型在跨语言自然语言理解和生成上的质量提供了一个全面的基准。

提供机构：

forresty

原始信息汇总

数据集概述

数据集名称: XGLUE

语言: 支持多种语言，包括阿拉伯语（ar）、保加利亚语（bg）、德语（de）、希腊语（el）、英语（en）、西班牙语（es）、法语（fr）、印地语（hi）、意大利语（it）、荷兰语（nl）、波兰语（pl）、葡萄牙语（pt）、俄语（ru）、斯瓦希里语（sw）、泰语（th）、土耳其语（tr）、乌尔都语（ur）、越南语（vi）、中文（zh）。

许可证: 遵循Universal Dependencies v2.5许可证。

多语言性: 支持多语言和翻译。

大小: 数据集大小分为多个类别，包括10K<n<100K和100K<n<1M。

源数据集: 包括扩展的conll2003、squad、xnli以及原始数据。

任务类别: 包括问答、摘要、文本分类、文本到文本生成、令牌分类。

任务ID: 包括可接受性分类、抽取式问答、命名实体识别、自然语言推理、新闻文章标题生成、开放域问答、解析、主题分类等。

数据集配置: 包括mlqa、nc、ner、ntg、paws-x、pos、qadsm、qam、qg、wpr、xnli等。

数据集结构

数据实例

ner: 示例包括words和ner字段，其中ner字段包含实体标签，如B-PER、I-PER等。
pos: 示例包括words和pos字段，其中pos字段包含词性标签，如ADJ、ADP等。
mlqa: 示例包括context、question和answers字段，其中answers字段包含答案的起始位置和文本。
nc: 示例包括news_title、news_body和news_category字段，其中news_category字段包含新闻类别标签。
xnli: 示例包括premise、hypothesis和label字段，其中label字段包含关系标签，如entailment、neutral等。
paws-x: 示例包括sentence1、sentence2和label字段，其中label字段包含句子关系标签，如same、different。
qadsm: 示例包括query、ad_title、ad_description和relevance_label字段，其中relevance_label字段包含相关性标签，如Bad、Good。
wpr: 示例包括query、web_page_title、web_page_snippet和relavance_label字段，其中relavance_label字段包含相关性标签，如Bad、Fair等。
qam: 示例包括question、answer和label字段，其中label字段包含答案真假标签，如False、True。
qg: 示例包括answer_passage和question字段。
ntg: 示例包括news_body和news_title字段。

数据字段

ner: words为字符串序列，ner为实体标签序列。
pos: words为字符串序列，pos为词性标签序列。
mlqa: context和question为字符串，answers为答案序列，包含起始位置和文本。
nc: news_title和news_body为字符串，news_category为类别标签。
xnli: premise和hypothesis为字符串，label为关系标签。
paws-x: sentence1和sentence2为字符串，label为句子关系标签。
qadsm: query、ad_title和ad_description为字符串，relevance_label为相关性标签。
wpr: query、web_page_title和web_page_snippet为字符串，relavance_label为相关性标签。
qam: question和answer为字符串，label为答案真假标签。
qg: answer_passage为字符串，question为字符串。
ntg: news_body为字符串，news_title为字符串。