pinzhenchen/alpaca-cleaned-pt
收藏Hugging Face2024-03-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/pinzhenchen/alpaca-cleaned-pt
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-nc-4.0
task_categories:
- text-generation
- question-answering
language:
- pt
tags:
- instruction tuning
size_categories:
- 10K<n<100K
---
### Data Description
This HF data repository contains the Portuguese Alpaca dataset used in our study of monolingual versus multilingual instruction tuning.
* [GitHub](https://github.com/hplt-project/monolingual-multilingual-instruction-tuning/tree/main)
* [Paper](https://arxiv.org/abs/2309.08958)
#### Creation
* Machine-translated from [yahma/alpaca-cleaned](https://huggingface.co/datasets/yahma/alpaca-cleaned) into Portuguese.
#### Usage
* This data is intended to be used for Portuguese instruction tuning.
* The dataset has roughly 52K instances in the JSON format.
* Each instance has an instruction, an output, and an optional input. An example is shown below:
```
{
"instruction": "Quais são as três cores primárias?",
"input": "",
"output": "As três cores primárias são vermelho, azul e amarelo. Essas cores são chamadas primárias porque não podem ser criadas misturando outras cores e todas as outras cores podem ser feitas combinando-as em várias proporções. No sistema de cores aditivas, usado para a luz, as cores primárias são vermelho, verde e azul (RGB)."
}
```
#### Known issues
* The machine translation process might have corrupted data containing code, cross-lingual tasks, grammatical error correction tasks, etc.
#### Citation
```
@inproceedings{chen-etal-2024-monolingual,
title="Monolingual or multilingual instruction tuning: Which makes a better {Alpaca}",
author="Pinzhen Chen and Shaoxiong Ji and Nikolay Bogoychev and Andrey Kutuzov and Barry Haddow and Kenneth Heafield",
year="2024",
booktitle = "Findings of the Association for Computational Linguistics: EACL 2024",
}
```
---
许可证:CC-BY-NC-4.0
任务类别:
- 文本生成
- 问答
语言:葡萄牙语(pt)
标签:
- 指令微调(instruction tuning)
规模类别:
- 10000 < 样本量 < 100000
---
### 数据说明
本Hugging Face(HF)数据集仓库包含我们在单语与多语指令微调研究中使用的葡萄牙语Alpaca数据集。
* [GitHub仓库](https://github.com/hplt-project/monolingual-multilingual-instruction-tuning/tree/main)
* [研究论文](https://arxiv.org/abs/2309.08958)
#### 数据集构建
* 本数据集由[yahma/alpaca-cleaned](https://huggingface.co/datasets/yahma/alpaca-cleaned)机器翻译为葡萄牙语而成。
#### 使用说明
* 本数据集旨在用于葡萄牙语指令微调。
* 该数据集共包含约5.2万个JSON格式样本。
* 每个样本均包含指令(instruction)、输出(output)与可选输入(input)字段,示例如下:
json
{
"instruction": "Quais são as três cores primárias?",
"input": "",
"output": "As três cores primárias são vermelho, azul e amarelo. Essas cores são chamadas primárias porque não podem ser criadas misturando outras cores e todas as outras cores podem ser feitas combinando-as em várias proporções. No sistema de cores aditivas, usado para a luz, as cores primárias são vermelho, verde e azul (RGB)."
}
#### 已知问题
* 机器翻译过程可能导致数据损坏,例如包含代码片段、跨语言任务、语法纠错任务等异常内容。
#### 引用格式
bibtex
@inproceedings{chen-etal-2024-monolingual,
title="Monolingual or multilingual instruction tuning: Which makes a better {Alpaca}",
author="Pinzhen Chen and Shaoxiong Ji and Nikolay Bogoychev and Andrey Kutuzov and Barry Haddow and Kenneth Heafield",
year="2024",
booktitle = "Findings of the Association for Computational Linguistics: EACL 2024",
}
提供机构:
pinzhenchen
原始信息汇总
数据集描述
该数据集是用于研究单语与多语指令调优的葡萄牙语Alpaca数据集。
创建
- 该数据集是通过机器翻译从yahma/alpaca-cleaned转换为葡萄牙语的。
使用
- 该数据集旨在用于葡萄牙语指令调优。
- 数据集包含约52K个实例,格式为JSON。
- 每个实例包含一个指令、一个输出和一个可选的输入。示例如下: json { "instruction": "Quais são as três cores primárias?", "input": "", "output": "As três cores primárias são vermelho, azul e amarelo. Essas cores são chamadas primárias porque não podem ser criadas misturando outras cores e todas as outras cores podem ser feitas combinando-as em várias proporções. No sistema de cores aditivas, usado para a luz, as cores primárias são vermelho, verde e azul (RGB)." }
已知问题
- 机器翻译过程可能损坏包含代码、跨语言任务、语法错误纠正任务等的数据。
引用
@inproceedings{chen-etal-2024-monolingual, title="Monolingual or multilingual instruction tuning: Which makes a better {Alpaca}", author="Pinzhen Chen and Shaoxiong Ji and Nikolay Bogoychev and Andrey Kutuzov and Barry Haddow and Kenneth Heafield", year="2024", booktitle = "Findings of the Association for Computational Linguistics: EACL 2024", }
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,指令调优数据集的构建对于提升模型遵循人类指令的能力至关重要。该数据集源自yahma/alpaca-cleaned,通过机器翻译技术将其内容从英语转换为葡萄牙语,旨在为葡萄牙语指令调优提供专门资源。构建过程中,原始数据中的每个实例均被系统性地翻译,涵盖了指令、输出及可选的输入字段,最终形成了约52,000条实例的集合,以JSON格式组织,为后续研究与应用奠定了结构化基础。
特点
该数据集专注于葡萄牙语指令调优任务,其核心特点在于语言单一性,为研究单语与多语指令调优的对比提供了实验材料。数据实例结构清晰,每条包含指令、输出及可选输入,便于模型学习生成符合人类意图的响应。然而,机器翻译过程可能对包含代码、跨语言任务或语法纠错等内容造成数据损坏,这一局限性在使用时需予以关注,以确保模型训练的稳健性。
使用方法
该数据集适用于葡萄牙语文本生成与问答任务,用户可通过加载JSON格式文件直接访问数据实例。每个实例的指令字段定义了模型需执行的任务,输出字段提供参考响应,输入字段则为可选上下文。研究人员可将其用于指令调优实验,通过微调预训练语言模型,提升模型在葡萄牙语环境下的指令遵循能力,同时建议结合数据已知问题,对潜在噪声进行预处理,以优化模型性能。
背景与挑战
背景概述
随着大规模语言模型在自然语言处理领域的广泛应用,指令调优技术成为提升模型遵循人类指令能力的关键途径。pinzhenchen/alpaca-cleaned-pt数据集由研究团队于2024年创建,旨在探索单语与多语指令调优对模型性能的影响。该数据集基于yahma/alpaca-cleaned数据集,通过机器翻译转化为葡萄牙语版本,涵盖了约5.2万条指令-输出对,支持文本生成与问答任务。其核心研究问题聚焦于比较不同语言环境下指令调优的效果,为跨语言自然语言处理研究提供了重要数据基础,推动了多语种模型适配性的深入探讨。
当前挑战
该数据集致力于解决葡萄牙语指令调优中的领域挑战,即如何使语言模型在特定语言环境下准确理解并执行复杂指令,这涉及对语言文化细微差异的捕捉。在构建过程中,机器翻译可能导致代码片段、跨语言任务及语法纠错等内容的数据损坏,影响了数据的完整性与可靠性。此外,确保翻译后指令的语义一致性与任务适用性也是一项关键难点,这些因素共同制约了数据集在高质量多语模型训练中的直接应用。
常用场景
经典使用场景
在自然语言处理领域,指令调优已成为提升模型遵循人类指令能力的关键技术。pinzhenchen/alpaca-cleaned-pt数据集专为葡萄牙语指令调优设计,其经典使用场景在于训练和评估大语言模型在葡萄牙语环境下的指令理解和生成能力。研究人员利用该数据集对模型进行监督微调,使模型能够准确解析葡萄牙语指令,并生成符合要求的文本输出,从而在单语指令调优实验中验证模型性能。
解决学术问题
该数据集直接针对单语与多语指令调优效果的比较研究这一学术问题。通过提供高质量的葡萄牙语指令-输出对,它使得研究者能够实证分析在资源相对有限的语种上,专注于单语指令调优是否比依赖多语数据更能提升模型的本地化任务表现。这项工作深化了对语言模型适应性与数据效率的理解,为低资源语言的模型优化提供了重要的数据支撑和实验基准。
衍生相关工作
该数据集源自对yahma/alpaca-cleaned数据集的机器翻译,其本身是Alpaca模型生态的延伸。它直接支撑了题为《Monolingual or Multilingual Instruction Tuning: Which Makes a Better Alpaca》的研究工作,该研究系统比较了单语与多语指令调优策略的优劣。此外,它为后续探索低资源语言指令调优、评估机器翻译对指令数据质量的影响,以及构建更多语种的Alpaca风格数据集提供了重要的参考和起点。
以上内容由遇见数据集搜集并总结生成



