MURI-IT

github2024-09-20 更新2024-09-21 收录

下载链接：

https://github.com/akoksal/muri

下载链接

链接失效反馈

官方服务：

资源简介：

MURI-IT 是一个多语言指令调优数据集，包含超过220万条指令-输出对，涵盖200种语言。该数据集通过多语言逆向指令生成，确保了文化与语言的细微差别得以保留，避免了直接翻译带来的常见问题。

MURI-IT is a multilingual instruction tuning dataset comprising over 2.2 million instruction-output pairs spanning 200 languages. This dataset employs multilingual reverse instruction generation to preserve subtle cultural and linguistic nuances, thus circumventing common issues arising from direct translation.

创建时间：

2024-09-19

原始信息汇总

MURI: Multilingual Instruction Tuning Dataset for 200 Languages via Reverse Instructions

数据集概述

名称: MURI-IT
描述: 通过多语言反向指令（MURI）生成的多语言指令调优数据集，涵盖200种语言。
特点:
- 避免翻译伪影，保留文化和语言细节。
- 包含2.2百万个指令-输出对，包括代码示例。
- 输出保持原生语言，确保语言真实性。

数据集来源

多语言反向指令: 194种语言，1,718,449个示例
- Wikipedia: 187种语言，1,031,726个示例
- CulturaX: 123种语言，686,723个示例
WikiHow: 18种语言，54,578个示例
NLP任务: 74种语言，455,472个示例
- SupNatInst-v2: 55种语言，161,986个示例
- xP3: 44种语言，184,000个示例
- OpenAssistant: 10种语言，9,486个示例
- FLAN v2.0: 1种语言，100,000个示例

数据集链接

MURI-IT: 🤗 MURI-IT
MURI-IT语言分割: 🤗 MURI-IT Language Split

模型

名称: MURI-101
描述: 使用MURI-IT数据集的子集微调的mT5-XXL模型，支持101种语言。
链接: 🤗 MURI-101

结果

MURI-101在多语言指令跟随任务中表现优异，特别是在低资源语言设置下。

局限性

数据集质量可通过去除文档中的页眉和页脚等冗余元素来提升。
低资源语言的效果依赖于输入数据的标准化。
方言和拼写变体的评估存在不足，未来工作将解决这些问题。

引用

@misc{koksal2024muri, title={MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions}, author={Abdullatif Köksal and Marion Thaler and Ayyoob Imani and Ahmet Üstün and Anna Korhonen and Hinrich Schütze}, year={2024}, eprint={2409.12958}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2409.12958}, }

搜集汇总

数据集介绍

构建方式

在构建MURI-IT数据集时，研究团队采用了多语言逆向指令（MURI）的方法，从CulturaX和Wikipedia等高质量的原始文本中提取数据。首先，将这些原始文本翻译成英语，然后通过大型语言模型（LLMs）生成逆向指令。最后，将生成的指令翻译回原始语言。这一过程确保了模型输出的文化相关性和避免翻译过程中常见的伪影问题。

使用方法

MURI-IT数据集可通过HuggingFace平台公开获取，用户可以根据需要下载完整数据集或特定语言的子集。数据集的结构化设计使得研究人员和开发者能够轻松地进行多语言指令调优实验。此外，数据集还附带了详细的文档和使用指南，帮助用户理解和应用数据集中的指令-输出对，以提升多语言模型的性能。

背景与挑战

背景概述

MURI-IT数据集，由Abdullatif Köksal等人于2024年创建，旨在通过多语言反向指令（MURI）方法生成高质量的指令调优数据，涵盖200种语言。该数据集的核心研究问题是如何在保留文化与语言细微差别的同时，避免传统翻译方法中常见的翻译伪影。MURI-IT的构建过程包括从CulturaX和Wikipedia提取高质量的原始文本，将其翻译为英语，应用反向指令生成指令，再将生成的指令翻译回源语言。这一方法确保了模型输出的文化相关性和语言真实性，对多语言自然语言处理领域具有重要影响。

当前挑战

MURI-IT数据集在构建过程中面临多重挑战。首先，如何从原始文本中提取高质量的人类书写内容，确保其文化与语言的细微差别得以保留，是一个关键问题。其次，反向指令生成过程中，如何避免翻译伪影，确保生成的指令在源语言中的自然性和准确性，也是一个重大挑战。此外，数据集在低资源语言中的有效性依赖于输入数据的标准化，而当前的评估显示，方言和正字法变异方面的不足，需要在未来的工作中加以解决。

常用场景

经典使用场景

在多语言自然语言处理领域，MURI-IT数据集以其独特的多语言反向指令生成方法，成为跨语言指令调优的经典工具。该数据集通过从CulturaX和Wikipedia等资源中提取高质量的原始文本，并应用反向指令生成技术，确保了指令与原始文本之间的文化相关性和语言真实性。这种创新方法不仅避免了传统翻译方法中的常见问题，还为多语言模型训练提供了丰富的数据支持。

解决学术问题

MURI-IT数据集通过其多语言反向指令生成技术，有效解决了多语言环境下指令调优中的翻译失真问题。传统方法依赖于直接翻译，往往导致文化差异和语言细微差别的丢失。MURI-IT通过保留源语言的输出，确保了指令的文化相关性和语言真实性，为多语言自然语言处理研究提供了新的视角和方法。

实际应用

在实际应用中，MURI-IT数据集被广泛用于多语言模型的训练和优化，特别是在低资源语言的处理上表现尤为突出。例如，在跨文化交流和多语言客户服务系统中，MURI-IT数据集能够帮助模型更好地理解和生成符合不同文化背景的指令，从而提高系统的适应性和用户体验。

数据集最近研究