google/xtreme

Hugging Face2024-02-22 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/google/xtreme

下载链接

链接失效反馈

资源简介：

XTREME数据集是一个多语言数据集，支持多种语言，包括非洲语、阿拉伯语、保加利亚语、孟加拉语、德语、希腊语、英语、西班牙语、爱沙尼亚语、巴斯克语、波斯语、芬兰语、法语、希伯来语、印地语、匈牙利语、印尼语、意大利语、日语、爪哇语、格鲁吉亚语、哈萨克语、韩语、马拉雅拉姆语、马拉地语、马来语、缅甸语、荷兰语、葡萄牙语、俄语、斯瓦希里语、泰米尔语、泰卢固语、泰语、他加禄语、土耳其语、乌尔都语、越南语、约鲁巴语和中文。该数据集适用于多种NLP任务，如多项选择问答、抽取式问答、开放域问答、自然语言推理、命名实体识别和词性标注。XTREME数据集基于多个扩展的源数据集，如XNLI、PAWS-X、WikiAnn、XQuAD、MLQA、TyDiQA、Tatoeba和SQuAD，并提供了多种配置，涵盖了不同语言和任务的组合。

提供机构：

google

原始信息汇总

数据集概述

基本信息

名称: XTREME
语言: 支持多种语言，包括但不限于英语、中文、阿拉伯语、德语、西班牙语等。
许可证: 包含多种许可证，如Apache-2.0、CC-BY-4.0、CC-BY-2.0、CC-BY-SA-4.0、其他、CC-BY-NC-4.0。
多语言性: 多语言和翻译支持。

数据集大小

规模: 分为多个级别，包括小于1K、1K到10K、10K到100K、100K到1M。

数据来源

源数据集: 包括但不限于MLQA、PAWS-X、WikiANN、XQuAD、MLQA、Tydiqa、Tatoeba、SQuAD等。

任务类型

任务类别: 包括多项选择、问答、令牌分类、文本分类、文本检索、令牌分类。
具体任务: 包括多项选择QA、抽取式QA、开放领域QA、自然语言推理、命名实体识别、词性标注等。

配置名称

配置详情: 包括多种语言对的配置，如MLQA.ar.ar、MLQA.ar.de、MLQA.ar.en等，涵盖了多种语言之间的互译和QA任务。

数据集结构

特征: 每个数据集配置包含ID、标题、上下文、问题和答案等特征。
分割: 数据集通常分为测试集和验证集，每个分割包含不同数量的示例和字节数。

示例数据量

测试集: 示例数量从几百到几千不等。
验证集: 示例数量通常较少，从几十到几百不等。

下载和数据集大小

下载大小: 每个配置的下载大小从几十万字节到几百万字节不等。
数据集大小: 每个配置的数据集大小从几百万字节到几千万字节不等。

搜集汇总

数据集介绍

构建方式

在跨语言自然语言处理领域，XTREME数据集通过整合多个现有基准构建而成，其核心方法在于系统性地汇集了XNLI、PAWS-X、WikiAnn、XQuAD、MLQA、TyDiQA、Tatoeba及SQuAD等知名数据集，并进行了多语言扩展与对齐处理。构建过程中，数据集涵盖了从非洲语到中文等40余种语言，通过翻译、注释迁移及平行语料对齐等技术手段，确保了跨语言任务的一致性与可比性。这种集成策略不仅保留了原始数据集的语义完整性，还通过统一的评估框架，为模型的多语言能力提供了标准化测试环境。

特点

XTREME数据集以其广泛的语言覆盖和多样化的任务设计著称，涵盖了文本分类、问答、命名实体识别及句子检索等多种自然语言处理任务。该数据集支持超过40种语言，包括低资源语言如约鲁巴语和斯瓦希里语，体现了对语言多样性的深度包容。其多任务架构允许研究者在统一平台上评估模型的跨语言迁移能力与泛化性能。数据集的平行语料与翻译对设计，为探究语言间的语义对齐与知识传递提供了丰富资源，成为推动多语言模型发展的重要基准。

使用方法

使用XTREME数据集时，研究者可通过HuggingFace平台直接加载特定配置，如MLQA或PAN-X的子集，以针对不同语言对或任务进行模型训练与评估。数据集支持标准化的数据分割，通常包含训练、验证和测试集，便于进行交叉验证与性能比较。在应用过程中，用户可依据任务需求选择相应的语言组合，例如跨语言问答或实体识别，并利用其丰富的元数据优化模型的多语言适配。该数据集的设计鼓励端到端的评估流程，为模型在真实多语言场景中的鲁棒性提供全面检验。

背景与挑战

背景概述

在自然语言处理领域，跨语言理解能力的评估一直是研究的前沿课题。XTREME数据集由谷歌研究团队于2020年推出，旨在系统性地评估多语言预训练模型在多种语言和任务上的泛化性能。该数据集整合了九项涵盖分类、问答、序列标注等核心自然语言处理任务，覆盖四十余种语言，包括资源丰富与资源匮乏的语言变体。其核心研究问题聚焦于如何构建一个统一的基准，以促进模型在跨语言迁移中的公平比较，从而推动多语言人工智能技术的发展，对机器翻译、信息检索等应用产生了深远影响。

当前挑战

XTREME数据集所解决的领域挑战在于多语言自然语言处理中模型泛化能力的系统性评估，尤其是在低资源语言上性能的显著差异问题。构建过程中的挑战包括：整合来自不同源数据集的多任务与多语言数据时，需确保标注质量与格式的一致性；处理语言间语法结构、书写系统及文化语境差异带来的对齐复杂性；以及在资源匮乏语言中获取足够高质量标注数据所面临的收集与验证困难。

常用场景

经典使用场景

在跨语言自然语言处理领域，XTREME数据集作为一项综合性基准测试平台，其经典使用场景聚焦于评估多语言预训练模型的泛化能力与跨语言迁移性能。该数据集整合了涵盖问答、文本分类、命名实体识别及句子检索等九项核心任务，覆盖四十余种语言，为研究者提供了系统化的评估框架。通过在不同语言对之间进行零样本或少样本学习实验，XTREME能够深入揭示模型在跨语言语境下的语义理解与知识迁移机制，成为推动多语言模型发展的关键工具。

实际应用

在实际应用层面，XTREME数据集为构建全球化智能系统提供了关键支撑，其多语言任务设计直接服务于跨语言搜索引擎、多语种客服机器人、国际化内容审核等现实场景。例如，基于该数据集训练的模型能够实现英语到阿拉伯语的问答系统迁移，或在低资源语言中执行高精度实体识别，显著降低了针对特定语言定制化开发的技术门槛与成本。这些能力助力企业拓展多语言市场，促进信息在不同语言社群间的无障碍流通。

衍生相关工作

围绕XTREME数据集，学术界衍生出一系列经典研究工作，包括谷歌提出的mT5、XLM-R等跨语言预训练模型，这些模型均在XTREME基准上进行了系统性评估与优化。后续研究如UniMax、InfoXLM等进一步探索了多语言表示的统一学习框架，而XTREME-R等扩展版本则引入了更丰富的任务与语言变体。这些工作共同推动了多语言模型架构创新与训练范式演进，形成了以XTREME为核心评估标准的跨语言技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集