XTREME (Cross-Lingual Transfer Evaluation of Multilingual Encoders)

Name: XTREME (Cross-Lingual Transfer Evaluation of Multilingual Encoders)
Creator: OpenDataLab
Published: 2026-05-31 10:30:25
License: 暂无描述

OpenDataLab2026-05-31 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/XTREME

下载链接

链接失效反馈

官方服务：

资源简介：

引入了多语言编码器的跨语言迁移评估 (XTREME) 基准，以鼓励对多语言迁移学习进行更多研究。 XTREME 涵盖了跨越 12 个语言家族的 40 种类型不同的语言，并包括 9 个需要推理不同级别的语法或语义的任务。选择 XTREME 中的语言是为了最大限度地提高语言多样性、现有任务的覆盖范围以及训练数据的可用性。选择 XTREME 中的语言是为了最大限度地提高语言多样性、现有任务的覆盖范围以及训练数据的可用性。其中有许多未被充分研究的语言，例如德拉威语泰米尔语（在印度南部、斯里兰卡和新加坡使用）、泰卢固语和马拉雅拉姆语（主要在印度南部使用），以及尼日尔-刚果语斯瓦希里语和约鲁巴语在非洲。

The Cross-lingual TRansfer Evaluation of Multilingual Encoders (XTREME) benchmark was introduced to advance research on multilingual transfer learning. XTREME encompasses 40 typologically diverse languages spanning 12 language families, and features 9 tasks that require reasoning across different levels of grammar and semantics. The languages included in XTREME were selected to maximize three key aspects: language diversity, coverage of existing tasks, and availability of training data. The languages included in XTREME were selected to maximize three key aspects: language diversity, coverage of existing tasks, and availability of training data. It incorporates numerous understudied languages, including Tamil (a Dravidian language used in southern India, Sri Lanka, and Singapore), Telugu and Malayalam (mainly used in southern India), as well as Swahili and Yoruba (two Niger-Congo languages spoken in Africa).

提供机构：

OpenDataLab

创建时间：

2022-08-19

搜集汇总

数据集介绍