MURI-IT

Name: MURI-IT
Creator: 慕尼黑大学语言技术实验室
Published: 2024-09-20 01:59:20
License: 暂无描述

arXiv2024-09-20 更新2024-09-26 收录

下载链接：

https://github.com/akoksal/muri

下载链接

链接失效反馈

官方服务：

资源简介：

MURI-IT数据集由慕尼黑大学语言技术实验室创建，包含2,228,499条指令-输出对，涵盖200种语言。该数据集通过多语言反向指令方法生成，利用现有高质量的多语言文本数据，确保文化相关性和多样性。数据集内容丰富，包括来自Wikipedia、WikiHow等多个来源的文本，保留了原始语言的文化和语言细节。创建过程中，通过机器翻译和反向指令生成技术，确保指令与输出对的高质量匹配。MURI-IT数据集主要应用于低资源语言的自然语言处理任务，旨在提升大型语言模型在这些语言上的表现。

The MURI-IT dataset was developed by the Language Technology Laboratory of Ludwig Maximilian University of Munich (LMU Munich). It contains 2,228,499 instruction-output pairs spanning 200 languages. This dataset is constructed using multilingual reverse instruction methodologies, leveraging existing high-quality multilingual textual data to guarantee cultural relevance and diversity. The dataset encompasses rich content, including texts from multiple sources such as Wikipedia and WikiHow, and retains the cultural and linguistic specifics of the original languages. During the development process, machine translation and reverse instruction generation technologies are utilized to ensure high-quality alignment between the instruction and output pairs. The MURI-IT dataset is primarily applied to natural language processing tasks for low-resource languages, with the goal of enhancing the performance of large language models (LLMs) on these languages.

提供机构：

慕尼黑大学语言技术实验室

创建时间：

2024-09-20

搜集汇总

数据集介绍

构建方式

MURI-IT数据集的构建采用了创新的多语言逆向指令方法（Multilingual Reverse Instructions, MURI），该方法通过逆向指令和翻译管道生成高质量的指令调优数据集，特别适用于低资源语言。具体步骤包括：首先从多语言语料库中随机抽取高质量的人类编写文本，然后将这些文本翻译成英文，利用英文大型语言模型生成相应的指令，最后将生成的英文指令翻译回原始语言，形成指令-输出对。此过程确保了指令与输出之间的文化相关性和多样性，同时避免了翻译伪影。

特点

MURI-IT数据集的显著特点在于其广泛的语言覆盖范围和高质量的指令-输出对。该数据集包含超过200种语言的200多万个指令-输出对，其中64%的数据来自低资源语言。此外，数据集通过多样化的来源（如Wikipedia、WikiHow等）确保了风格、领域和长度的丰富性，同时通过质量过滤器确保了数据的高标准。

使用方法

MURI-IT数据集主要用于微调大型语言模型，以提高其在多语言环境下的指令遵循能力。用户可以通过公开的GitHub仓库获取数据集和相关模型，并将其应用于自然语言理解（NLU）和开放式生成（NLG）任务。数据集的结构化格式和高质量的指令-输出对使其成为训练和评估多语言模型的理想选择。

背景与挑战

背景概述

MURI-IT数据集由Abdullatif Köksal等人于2024年创建，旨在解决低资源语言在指令调优数据集创建中的挑战。该数据集的核心研究问题是如何在不依赖人工标注或预先存在的多语言模型的情况下，生成高质量的指令调优数据集。MURI-IT通过逆向指令和翻译管道，从现有的低资源语言的人类书写文本中生成指令-输出对，确保了文化相关性和多样性。该数据集包含超过200种语言的200多万个指令-输出对，极大地推动了多语言语言模型的发展，尤其是在自然语言理解和开放式生成任务中。

当前挑战

MURI-IT数据集在构建过程中面临多项挑战。首先，低资源语言的数据标注成本高昂，且难以找到母语者进行标注。其次，模板化的自然语言处理任务限制了数据集的应用范围和通用性。此外，合成数据生成方法受限于现有模型支持的语言，且存在有效性和创造性问题。MURI-IT通过逆向指令方法和翻译管道，有效解决了这些挑战，但仍需面对数据质量、文化相关性和语言多样性等方面的持续优化需求。

常用场景

经典使用场景

MURI-IT数据集的经典使用场景在于其能够为低资源语言提供高质量的指令调优数据。通过利用反向指令和翻译管道，该数据集生成了大量的指令-输出对，适用于微调多语言模型，特别是在自然语言理解和生成任务中。这些数据对不仅确保了文化相关性和多样性，还通过筛选机制排除了不适当的内容，从而提升了模型的泛化能力和对人类偏好的对齐。

衍生相关工作

MURI-IT数据集的发布催生了一系列相关研究工作。例如，基于该数据集，研究者们开发了MURI-101模型，该模型在多语言环境和低资源语言设置下均表现出色。此外，MURI-IT还激发了对多语言模型在不同语言特性下的适应性研究，如语言的形态学和句法结构。这些研究不仅扩展了多语言模型的应用范围，还为低资源语言的NLP研究提供了新的工具和方法。

数据集最近研究