five

XTREME (Cross-Lingual Transfer Evaluation of Multilingual Encoders)

收藏
OpenDataLab2026-05-31 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/XTREME
下载链接
链接失效反馈
官方服务:
资源简介:
引入了多语言编码器的跨语言迁移评估 (XTREME) 基准,以鼓励对多语言迁移学习进行更多研究。 XTREME 涵盖了跨越 12 个语言家族的 40 种类型不同的语言,并包括 9 个需要推理不同级别的语法或语义的任务。选择 XTREME 中的语言是为了最大限度地提高语言多样性、现有任务的覆盖范围以及训练数据的可用性。选择 XTREME 中的语言是为了最大限度地提高语言多样性、现有任务的覆盖范围以及训练数据的可用性。其中有许多未被充分研究的语言,例如德拉威语泰米尔语(在印度南部、斯里兰卡和新加坡使用)、泰卢固语和马拉雅拉姆语(主要在印度南部使用),以及尼日尔-刚果语斯瓦希里语和约鲁巴语在非洲。

The Cross-lingual TRansfer Evaluation of Multilingual Encoders (XTREME) benchmark was introduced to advance research on multilingual transfer learning. XTREME encompasses 40 typologically diverse languages spanning 12 language families, and features 9 tasks that require reasoning across different levels of grammar and semantics. The languages included in XTREME were selected to maximize three key aspects: language diversity, coverage of existing tasks, and availability of training data. The languages included in XTREME were selected to maximize three key aspects: language diversity, coverage of existing tasks, and availability of training data. It incorporates numerous understudied languages, including Tamil (a Dravidian language used in southern India, Sri Lanka, and Singapore), Telugu and Malayalam (mainly used in southern India), as well as Swahili and Yoruba (two Niger-Congo languages spoken in Africa).
提供机构:
OpenDataLab
创建时间:
2022-08-19
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
XTREME是一个用于评估多语言编码器跨语言迁移能力的基准数据集,涵盖12个语言家族的40种语言,包含9个语法或语义推理任务,旨在促进多语言迁移学习研究并覆盖多种未充分研究的语言。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作