five

MURI-IT

收藏
github2024-09-20 更新2024-09-21 收录
下载链接:
https://github.com/akoksal/muri
下载链接
链接失效反馈
官方服务:
资源简介:
MURI-IT 是一个多语言指令调优数据集,包含超过220万条指令-输出对,涵盖200种语言。该数据集通过多语言逆向指令生成,确保了文化与语言的细微差别得以保留,避免了直接翻译带来的常见问题。

MURI-IT is a multilingual instruction tuning dataset comprising over 2.2 million instruction-output pairs spanning 200 languages. This dataset employs multilingual reverse instruction generation to preserve subtle cultural and linguistic nuances, thus circumventing common issues arising from direct translation.
创建时间:
2024-09-19
原始信息汇总

MURI: Multilingual Instruction Tuning Dataset for 200 Languages via Reverse Instructions

数据集概述

  • 名称: MURI-IT
  • 描述: 通过多语言反向指令(MURI)生成的多语言指令调优数据集,涵盖200种语言。
  • 特点:
    • 避免翻译伪影,保留文化和语言细节。
    • 包含2.2百万个指令-输出对,包括代码示例。
    • 输出保持原生语言,确保语言真实性。

数据集来源

  • 多语言反向指令: 194种语言,1,718,449个示例
    • Wikipedia: 187种语言,1,031,726个示例
    • CulturaX: 123种语言,686,723个示例
  • WikiHow: 18种语言,54,578个示例
  • NLP任务: 74种语言,455,472个示例
    • SupNatInst-v2: 55种语言,161,986个示例
    • xP3: 44种语言,184,000个示例
    • OpenAssistant: 10种语言,9,486个示例
    • FLAN v2.0: 1种语言,100,000个示例

数据集链接

模型

  • 名称: MURI-101
  • 描述: 使用MURI-IT数据集的子集微调的mT5-XXL模型,支持101种语言。
  • 链接: 🤗 MURI-101

结果

  • MURI-101在多语言指令跟随任务中表现优异,特别是在低资源语言设置下。

局限性

  • 数据集质量可通过去除文档中的页眉和页脚等冗余元素来提升。
  • 低资源语言的效果依赖于输入数据的标准化。
  • 方言和拼写变体的评估存在不足,未来工作将解决这些问题。

引用

@misc{koksal2024muri, title={MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions}, author={Abdullatif Köksal and Marion Thaler and Ayyoob Imani and Ahmet Üstün and Anna Korhonen and Hinrich Schütze}, year={2024}, eprint={2409.12958}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2409.12958}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在构建MURI-IT数据集时,研究团队采用了多语言逆向指令(MURI)的方法,从CulturaX和Wikipedia等高质量的原始文本中提取数据。首先,将这些原始文本翻译成英语,然后通过大型语言模型(LLMs)生成逆向指令。最后,将生成的指令翻译回原始语言。这一过程确保了模型输出的文化相关性和避免翻译过程中常见的伪影问题。
使用方法
MURI-IT数据集可通过HuggingFace平台公开获取,用户可以根据需要下载完整数据集或特定语言的子集。数据集的结构化设计使得研究人员和开发者能够轻松地进行多语言指令调优实验。此外,数据集还附带了详细的文档和使用指南,帮助用户理解和应用数据集中的指令-输出对,以提升多语言模型的性能。
背景与挑战
背景概述
MURI-IT数据集,由Abdullatif Köksal等人于2024年创建,旨在通过多语言反向指令(MURI)方法生成高质量的指令调优数据,涵盖200种语言。该数据集的核心研究问题是如何在保留文化与语言细微差别的同时,避免传统翻译方法中常见的翻译伪影。MURI-IT的构建过程包括从CulturaX和Wikipedia提取高质量的原始文本,将其翻译为英语,应用反向指令生成指令,再将生成的指令翻译回源语言。这一方法确保了模型输出的文化相关性和语言真实性,对多语言自然语言处理领域具有重要影响。
当前挑战
MURI-IT数据集在构建过程中面临多重挑战。首先,如何从原始文本中提取高质量的人类书写内容,确保其文化与语言的细微差别得以保留,是一个关键问题。其次,反向指令生成过程中,如何避免翻译伪影,确保生成的指令在源语言中的自然性和准确性,也是一个重大挑战。此外,数据集在低资源语言中的有效性依赖于输入数据的标准化,而当前的评估显示,方言和正字法变异方面的不足,需要在未来的工作中加以解决。
常用场景
经典使用场景
在多语言自然语言处理领域,MURI-IT数据集以其独特的多语言反向指令生成方法,成为跨语言指令调优的经典工具。该数据集通过从CulturaX和Wikipedia等资源中提取高质量的原始文本,并应用反向指令生成技术,确保了指令与原始文本之间的文化相关性和语言真实性。这种创新方法不仅避免了传统翻译方法中的常见问题,还为多语言模型训练提供了丰富的数据支持。
解决学术问题
MURI-IT数据集通过其多语言反向指令生成技术,有效解决了多语言环境下指令调优中的翻译失真问题。传统方法依赖于直接翻译,往往导致文化差异和语言细微差别的丢失。MURI-IT通过保留源语言的输出,确保了指令的文化相关性和语言真实性,为多语言自然语言处理研究提供了新的视角和方法。
实际应用
在实际应用中,MURI-IT数据集被广泛用于多语言模型的训练和优化,特别是在低资源语言的处理上表现尤为突出。例如,在跨文化交流和多语言客户服务系统中,MURI-IT数据集能够帮助模型更好地理解和生成符合不同文化背景的指令,从而提高系统的适应性和用户体验。
数据集最近研究
最新研究方向
在多语言自然语言处理领域,MURI-IT数据集的最新研究方向主要集中在通过逆向指令生成高质量的多语言指令调优数据。该方法通过从原始语料库中提取高质量的人类书写文本,并应用大型语言模型(LLMs)生成逆向指令,确保了文化与语言细节的保留。相较于依赖直接翻译的传统方法,MURI-IT避免了翻译过程中常见的失真问题,从而提升了模型的跨文化适应性和语言真实性。此外,MURI-IT数据集的广泛语言覆盖和高质量数据对提升低资源语言的模型性能具有重要意义,尤其是在多语言指令跟随任务中,MURI-101模型表现出了显著的优势,特别是在与现有最先进模型如Aya的结合使用中,进一步增强了其在低资源语言环境下的有效性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作