pinzhenchen/alpaca-cleaned-de
收藏Hugging Face2024-03-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/pinzhenchen/alpaca-cleaned-de
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-nc-4.0
task_categories:
- text-generation
- question-answering
language:
- de
tags:
- instruction tuning
size_categories:
- 10K<n<100K
---
### Data Description
This HF data repository contains the German Alpaca dataset used in our study of monolingual versus multilingual instruction tuning.
* [GitHub](https://github.com/hplt-project/monolingual-multilingual-instruction-tuning/tree/main)
* [Paper](https://arxiv.org/abs/2309.08958)
#### Creation
* Machine-translated from [yahma/alpaca-cleaned](https://huggingface.co/datasets/yahma/alpaca-cleaned) into German.
#### Usage
* This data is intended to be used for German instruction tuning.
* The dataset has roughly 52K instances in the JSON format.
* Each instance has an instruction, an output, and an optional input. An example is shown below:
```
{
"instruction": "Was sind die drei Primärfarben?",
"input": "",
"output": "Die drei Grundfarben sind rot, blau und gelb. Diese Farben werden primär genannt, weil sie nicht durch das Mischen anderer Farben geschaffen werden können und alle anderen Farben können durch die Kombination in verschiedenen Proportionen hergestellt werden. Im additiven Farbsystem, das für Licht verwendet wird, sind die Primärfarben rot, grün und blau (RGB)."
}
```
#### Known issues
* The machine translation process might have corrupted data containing code, cross-lingual tasks, grammatical error correction tasks, etc.
#### Citation
```
@inproceedings{chen-etal-2024-monolingual,
title="Monolingual or multilingual instruction tuning: Which makes a better {Alpaca}",
author="Pinzhen Chen and Shaoxiong Ji and Nikolay Bogoychev and Andrey Kutuzov and Barry Haddow and Kenneth Heafield",
year="2024",
booktitle = "Findings of the Association for Computational Linguistics: EACL 2024",
}
```
提供机构:
pinzhenchen
原始信息汇总
数据集描述
该数据集是用于研究单语与多语指令调优的德语Alpaca数据集。
创建
- 该数据集是从yahma/alpaca-cleaned机器翻译成德语的。
使用
- 该数据集旨在用于德语指令调优。
- 数据集包含约52K个实例,格式为JSON。
- 每个实例包含一个指令、一个输出和一个可选的输入。示例如下: json { "instruction": "Was sind die drei Primärfarben?", "input": "", "output": "Die drei Grundfarben sind rot, blau und gelb. Diese Farben werden primär genannt, weil sie nicht durch das Mischen anderer Farben geschaffen werden können und alle anderen Farben können durch die Kombination in verschiedenen Proportionen hergestellt werden. Im additiven Farbsystem, das für Licht verwendet wird, sind die Primärfarben rot, grün und blau (RGB)." }
已知问题
- 机器翻译过程可能损坏包含代码、跨语言任务、语法错误纠正任务等的数据。
引用
@inproceedings{chen-etal-2024-monolingual, title="Monolingual or multilingual instruction tuning: Which makes a better {Alpaca}", author="Pinzhen Chen and Shaoxiong Ji and Nikolay Bogoychev and Andrey Kutuzov and Barry Haddow and Kenneth Heafield", year="2024", booktitle = "Findings of the Association for Computational Linguistics: EACL 2024", }



