ZurichNLP/mlit-guanaco

Name: ZurichNLP/mlit-guanaco
Creator: ZurichNLP
Published: 2023-12-22 13:40:36
License: 暂无描述

Hugging Face2023-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ZurichNLP/mlit-guanaco

下载链接

链接失效反馈

官方服务：

资源简介：

Guanaco数据集是用于将英语为中心的大型语言模型（LLMs）转变为多语言模型的研究数据集。该数据集扩展了原始的Guanaco数据集，增加了语言标签，并使用OpenLID进行语言识别。数据集包含多个子集，每个子集包含不同数量的语言，从单一语言（如英语）到多种语言（如英语、西班牙语、俄语、德语、中文、法语等）。数据集的特征包括文本、语言、置信度和ID。数据集分为训练集和测试集，每个子集的大小和下载大小也有所不同。

提供机构：

ZurichNLP

原始信息汇总

数据集概述

数据集配置信息

配置 `guanaco`

特征:
- text: 字符串
- lang: 字符串
- confidence: 浮点数 (float64)
- id: 整数 (int64)
分割:
- train: 16084303 字节, 9846 个样本
- test: 854470 字节, 518 个样本
下载大小: 9851098 字节
数据集大小: 16938773 字节

配置 `ml1`

特征:
- text: 字符串
- lang: 字符串
- confidence: 浮点数 (float64)
- id: 整数 (int64)
分割:
- train: 5768604 字节, 3200 个样本
- test: 854470 字节, 518 个样本
下载大小: 3725469 字节
数据集大小: 6623074 字节

配置 `ml2`

特征:
- text: 字符串
- lang: 字符串
- confidence: 浮点数 (float64)
- id: 整数 (int64)
分割:
- train: 5710678 字节, 3200 个样本
- test: 854470 字节, 518 个样本
下载大小: 3697276 字节
数据集大小: 6565148 字节

配置 `ml3`

特征:
- text: 字符串
- lang: 字符串
- confidence: 浮点数 (float64)
- id: 整数 (int64)
分割:
- train: 5869588 字节, 3200 个样本
- test: 854470 字节, 518 个样本
下载大小: 3740699 字节
数据集大小: 6724058 字节

配置 `ml4`

特征:
- text: 字符串
- lang: 字符串
- confidence: 浮点数 (float64)
- id: 整数 (int64)
分割:
- train: 5793432 字节, 3200 个样本
- test: 854470 字节, 518 个样本
下载大小: 3704436 字节
数据集大小: 6647902 字节

配置 `ml5`

特征:
- text: 字符串
- lang: 字符串
- confidence: 浮点数 (float64)
- id: 整数 (int64)
分割:
- train: 5727523 字节, 3200 个样本
- test: 854470 字节, 518 个样本
下载大小: 3676576 字节
数据集大小: 6581993 字节

配置 `ml6`

特征:
- text: 字符串
- lang: 字符串
- confidence: 浮点数 (float64)
- id: 整数 (int64)
分割:
- train: 5617451 字节, 3200 个样本
- test: 854470 字节, 518 个样本
下载大小: 3625589 字节
数据集大小: 6471921 字节

配置 `mtml2`

特征:
- text: 字符串
- lang: 字符串
- confidence: 浮点数 (float64)
- id: 整数 (int64)
分割:
- train: 5813848 字节, 3200 个样本
- test: 854470 字节, 518 个样本
下载大小: 3717965 字节
数据集大小: 6668318 字节

配置 `mtml3`

特征:
- text: 字符串
- lang: 字符串
- confidence: 浮点数 (float64)
- id: 整数 (int64)
分割:
- train: 6105089 字节, 3200 个样本
- test: 854470 字节, 518 个样本
下载大小: 3823447 字节
数据集大小: 6959559 字节

配置 `mtml4`

特征:
- text: 字符串
- lang: 字符串
- confidence: 浮点数 (float64)
- id: 整数 (int64)
分割:
- train: 6155284 字节, 3200 个样本
- test: 854470 字节, 518 个样本
下载大小: 3848827 字节
数据集大小: 7009754 字节

配置 `mtml5`

特征:
- text: 字符串
- lang: 字符串
- confidence: 浮点数 (float64)
- id: 整数 (int64)
分割:
- train: 6104544 字节, 3200 个样本
- test: 854470 字节, 518 个样本
下载大小: 3836022 字节
数据集大小: 6959014 字节

配置 `mtml6`

特征:
- text: 字符串
- lang: 字符串
- confidence: 浮点数 (float64)
- id: 整数 (int64)
分割:
- train: 6174923 字节, 3200 个样本
- test: 854470 字节, 518 个样本
下载大小: 3859467 字节
数据集大小: 7029393 字节

数据文件路径

配置 `guanaco`

训练数据路径: guanaco/train-*
测试数据路径: guanaco/test-*

配置 `ml1`

训练数据路径: ml1/train-*
测试数据路径: ml1/test-*

配置 `ml2`

训练数据路径: ml2/train-*
测试数据路径: ml2/test-*

配置 `ml3`

训练数据路径: ml3/train-*
测试数据路径: ml3/test-*

配置 `ml4`

训练数据路径: ml4/train-*
测试数据路径: ml4/test-*

配置 `ml5`

训练数据路径: ml5/train-*
测试数据路径: ml5/test-*

配置 `ml6`

训练数据路径: ml6/train-*
测试数据路径: ml6/test-*

配置 `mtml2`

训练数据路径: mtml2/train-*
测试数据路径: mtml2/test-*

配置 `mtml3`

训练数据路径: mtml3/train-*
测试数据路径: mtml3/test-*

配置 `mtml4`

训练数据路径: mtml4/train-*
测试数据路径: mtml4/test-*

配置 `mtml5`

训练数据路径: mtml5/train-*
测试数据路径: mtml5/test-*

配置 `mtml6`

训练数据路径: mtml6/train-*
测试数据路径: mtml6/test-*

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言指令微调数据集的构建对于提升大语言模型的跨语言能力至关重要。ZurichNLP/mlit-guanaco数据集基于原始Guanaco数据集扩展而成，通过OpenLID工具为每条文本标注语言标签，并依据实验需求设计了多个子集配置。其中，ml系列子集直接采用OpenAssistant中的非英语原生语料，而mtml系列则借助GPT-3.5模型将英语原文翻译为目标语言，从而形成对比性的双语或多语训练资源。每个子集均包含训练集与测试集，确保了模型评估的严谨性。

特点

该数据集的核心特征在于其精心设计的语言覆盖梯度与数据来源的多样性。从仅含英语的ml1配置，逐步扩展至包含西班牙语、俄语、德语、中文及法语的ml6配置，乃至覆盖十余种语言的guanaco全集，形成了系统的多语言能力研究框架。每个样本均附带语言标识及置信度分数，为分析语言混合训练的效果提供了细粒度支持。数据集的模块化结构允许研究者灵活选择语言组合，以探究多语言训练中语言数量与模型性能间的复杂关系。

使用方法

使用该数据集时，研究者可通过Hugging Face的datasets库便捷加载指定配置。例如，调用load_dataset('ZurichNLP/mlit-guanaco', 'ml2')即可获取英语与西班牙语的双语训练及测试数据。数据集返回的结构化对象包含文本、语言标签、置信度及ID等字段，可直接用于指令微调实验。用户可根据研究目标，对比不同语言配置或数据来源（原生与翻译）对模型多语言泛化能力的影响，亦可通过组合多个子集构建自定义的多语言训练环境。

背景与挑战

背景概述

在自然语言处理领域，大型语言模型的多语言能力提升已成为前沿研究热点。苏黎世大学自然语言处理团队于2023年发布的mlit-guanaco数据集，正是针对这一核心问题而构建。该数据集基于原始Guanaco数据集，通过OpenLID工具进行语言标注扩展，旨在探究英语中心化大语言模型向多语言模型转化所需的最小多语言数据量。其研究论文《Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed?》系统设计了从单语到包含十余种语言的渐进式数据子集，为多语言指令微调提供了精准的实验基准。

当前挑战

该数据集致力于解决大语言模型在多语言指令遵循任务中面临的语种覆盖不足与数据质量不均的挑战。具体而言，构建过程中需克服原生多语言数据稀缺性，通过机器翻译生成平行语料时需保持指令语义的一致性；同时，语言识别置信度的标注需确保跨语言数据的可靠性。不同语种间数据分布的平衡性，以及翻译文本与原生文本在语言地道性上的差异，均为模型训练带来显著的复杂性。

常用场景

经典使用场景

在自然语言处理领域，多语言指令微调数据集对于提升大语言模型的跨语言泛化能力至关重要。ZurichNLP/mlit-guanaco数据集通过整合多种语言配置，为研究者提供了一个系统评估模型多语言性能的实验平台。其经典使用场景在于，利用不同语言组合的子集，如从单一英语到涵盖六种主要语言的渐进式扩展，来探究模型在多语言指令跟随任务中的表现。这些子集不仅包含原生非英语文本，还引入了机器翻译版本，使得研究者能够对比分析原生数据与翻译数据对模型能力的影响，从而深入理解多语言微调中数据来源的关键作用。

衍生相关工作

该数据集衍生的经典工作主要围绕高效多语言微调策略展开。其关联的学术论文《Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed?》系统探讨了多语言数据的最优混合比例与模型性能的关联，成为该领域的基准研究之一。此外，数据集构建基于QLoRA高效微调框架，促进了参数高效微调技术在多语言场景下的应用与发展。后续研究常以此数据集为基准，评估新的多语言适配方法，或探究翻译数据与原生数据在模型训练中的等效性，持续推动着多语言大模型研究社区的进步。

数据集最近研究

ZurichNLP/mlit-guanaco

数据集概述

数据集配置信息

配置 guanaco

配置 ml1

配置 ml2

配置 ml3

配置 ml4

配置 ml5

配置 ml6

配置 mtml2

配置 mtml3

配置 mtml4

配置 mtml5

配置 mtml6

数据文件路径

配置 guanaco

配置 ml1

配置 ml2

配置 ml3

配置 ml4

配置 ml5

配置 ml6

配置 mtml2

配置 mtml3

配置 mtml4

配置 mtml5

配置 mtml6

配置 `guanaco`

配置 `ml1`

配置 `ml2`

配置 `ml3`

配置 `ml4`

配置 `ml5`

配置 `ml6`

配置 `mtml2`

配置 `mtml3`

配置 `mtml4`

配置 `mtml5`

配置 `mtml6`

配置 `guanaco`

配置 `ml1`

配置 `ml2`

配置 `ml3`

配置 `ml4`

配置 `ml5`

配置 `ml6`

配置 `mtml2`

配置 `mtml3`

配置 `mtml4`

配置 `mtml5`

配置 `mtml6`