multilingual C4

github2024-11-15 更新2024-11-28 收录

下载链接：

https://github.com/jkallini/mrt5

下载链接

链接失效反馈

官方服务：

资源简介：

一个多语言的C4数据集，用于生成不同语言的span corruption数据集，支持15种语言（英语、法语、西班牙语、德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文、印地语、斯瓦希里语和乌尔都语）。

This is a multilingual C4 dataset intended for generating cross-lingual span corruption datasets, supporting 15 languages including English, French, Spanish, German, Greek, Bulgarian, Russian, Turkish, Arabic, Vietnamese, Thai, Chinese, Hindi, Swahili, and Urdu.

创建时间：

2024-10-28

原始信息汇总

MrT5 数据集概述

数据集描述

MrT5 (MergeT5) 是一个更高效的 ByT5 变体，通过在其编码器中集成一个动态的 token 删除机制来缩短输入序列长度。该机制通过一个学习到的删除门来决定哪些 token 被删除，哪些被保留。通过有效地将删除的 token 中的关键信息合并到更紧凑的序列中，MrT5 解决了现有字节级模型的一些实际限制。

数据集创建

跨度损坏数据集

生成脚本: preprocess_lm_dataset.py
数据来源: multilingual C4 (mC4)
默认行为: 生成 15 种语言（英语、法语、西班牙语、德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文、印地语、斯瓦希里语和乌尔都语）的单语训练、验证和测试集。
示例命令:
- 生成仅包含英语的跨度损坏数据集:
  
  python3 preprocess_lm_dataset.py --en_only
- 生成多语言测试集:
  
  python3 preprocess_lm_dataset.py --split test
- 生成多语言训练语料库:
  
  python3 preprocess_lm_dataset.py --multilingual

诊断数据集

生成脚本: preprocess_diagnostic_dataset.py
示例任务: 简单元音删除、上下文元音删除、序列合并
示例命令:
- 生成简单元音删除任务的训练、开发和测试集:
  
  python3 preprocess_diagnostic_dataset.py vowel_removal --train_n 2560000 --eval_n 32000

下游任务数据集

生成脚本: preprocess_char_dataset.py
支持任务: 上下文拼写校正、单词搜索
示例命令:
- 预处理上下文拼写校正任务的数据:
  
  python3 preprocess_char_dataset.py spelling_correction_contextual

训练

支持模型: ByT5 或 MrT5 架构，以及随机和固定删除基线。
训练脚本: train.py
示例命令:
- 在跨度损坏任务上微调预训练的 ByT5 Small:
  
  python3 train.py span_corruption --warmup_steps 0 --logging_steps 10 --eval_steps 50 --effective_batch_size 1024 --per_device_train_batch_size 8 --run_name t5_span_corruption --random_seed 28 --max_steps 3000 --use_softmax1
- 在跨度损坏任务上训练 MrT5 模型:
  
  python3 train.py span_corruption --warmup_steps 0 --logging_steps 10 --eval_steps 50 --effective_batch_size 1024 --per_device_train_batch_size 8 --run_name mrt5_span_corruption --random_seed 28 --max_steps 3000 --use_softmax1 --model_type MrT5

评估

说明: 即将发布。

搜集汇总

数据集介绍

构建方式

在构建多语言C4数据集时，研究者们采用了从多语言C4（mC4）数据集中提取数据的方法。具体而言，通过运行`preprocess_lm_dataset.py`脚本，可以生成单语言或多语言的训练、验证和测试数据集。默认情况下，该脚本会为15种语言（包括英语、法语、西班牙语等）生成单语言数据集。此外，通过设置`--multilingual`标志，可以生成包含15种语言随机混合的多语言训练语料库。为了支持更多语言，用户可以在`utils.py`中更新`SUBSET_LANGUAGES`字典，以包含mC4中的其他语言。

使用方法

使用多语言C4数据集时，首先需要克隆MrT5仓库并安装所需的依赖项。接着，通过运行`preprocess_lm_dataset.py`脚本，用户可以根据需求生成单语言或多语言的数据集。例如，使用`--en_only`标志可以生成仅包含英语的数据集，而使用`--multilingual`标志则可以生成包含多种语言混合的数据集。此外，用户还可以通过调整`SUBSET_LANGUAGES`字典来支持更多语言。生成的数据集随后可用于训练和评估MrT5模型，具体操作可通过运行`train.py`脚本来实现。

背景与挑战

背景概述

多语言C4（multilingual C4）数据集是由Kallini等人于2024年创建的，旨在支持MrT5模型的训练与评估。该数据集基于multilingual C4（mC4）构建，涵盖了15种语言，包括英语、法语、西班牙语、德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文、印地语、斯瓦希里语和乌尔都语。其核心研究问题是如何在字节级语言模型中动态缩短输入序列长度，以提高模型的效率。该数据集的创建对自然语言处理领域具有重要意义，尤其是在多语言文本处理和跨语言模型训练方面。

当前挑战

多语言C4数据集在构建过程中面临多重挑战。首先，如何从mC4中提取并处理多种语言的数据，确保每种语言的数据质量与平衡性，是一个复杂的问题。其次，数据集的生成需要支持多种任务，如跨语言评估和多语言训练，这对数据处理脚本的灵活性和效率提出了高要求。此外，数据集的构建还需考虑不同语言之间的差异，如语法结构和词汇特征，以确保模型在不同语言环境下的泛化能力。最后，数据集的维护和更新也是一个持续的挑战，以适应不断发展的自然语言处理技术和需求。

常用场景

经典使用场景

在自然语言处理领域，multilingual C4数据集的经典使用场景主要体现在跨语言预训练模型的构建与评估。该数据集通过提供多语言的文本数据，使得研究者能够训练和验证能够在多种语言上表现优异的模型。例如，通过使用multilingual C4数据集，研究者可以进行跨语言的文本生成、翻译和理解任务，从而推动多语言自然语言处理技术的发展。

解决学术问题

multilingual C4数据集解决了多语言自然语言处理中的一个关键问题，即如何在有限的资源下实现高效的多语言模型训练。通过提供丰富的多语言文本数据，该数据集使得研究者能够在统一的框架下进行跨语言的模型训练和评估，从而推动了多语言模型的研究进展。这不仅有助于提升模型的泛化能力，还为多语言应用的实际部署提供了坚实的基础。

实际应用

在实际应用中，multilingual C4数据集为多语言内容处理提供了强大的支持。例如，在跨国企业的客户服务中，该数据集可以用于训练能够理解和生成多种语言的智能客服系统，从而提升服务质量和效率。此外，在多语言新闻聚合和内容推荐系统中，该数据集也能够帮助构建更加精准和全面的内容处理模型，满足不同语言用户的需求。

数据集最近研究