five

pinzhenchen/alpaca-cleaned-de

收藏
Hugging Face2024-03-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/pinzhenchen/alpaca-cleaned-de
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-4.0 task_categories: - text-generation - question-answering language: - de tags: - instruction tuning size_categories: - 10K<n<100K --- ### Data Description This HF data repository contains the German Alpaca dataset used in our study of monolingual versus multilingual instruction tuning. * [GitHub](https://github.com/hplt-project/monolingual-multilingual-instruction-tuning/tree/main) * [Paper](https://arxiv.org/abs/2309.08958) #### Creation * Machine-translated from [yahma/alpaca-cleaned](https://huggingface.co/datasets/yahma/alpaca-cleaned) into German. #### Usage * This data is intended to be used for German instruction tuning. * The dataset has roughly 52K instances in the JSON format. * Each instance has an instruction, an output, and an optional input. An example is shown below: ``` { "instruction": "Was sind die drei Primärfarben?", "input": "", "output": "Die drei Grundfarben sind rot, blau und gelb. Diese Farben werden primär genannt, weil sie nicht durch das Mischen anderer Farben geschaffen werden können und alle anderen Farben können durch die Kombination in verschiedenen Proportionen hergestellt werden. Im additiven Farbsystem, das für Licht verwendet wird, sind die Primärfarben rot, grün und blau (RGB)." } ``` #### Known issues * The machine translation process might have corrupted data containing code, cross-lingual tasks, grammatical error correction tasks, etc. #### Citation ``` @inproceedings{chen-etal-2024-monolingual, title="Monolingual or multilingual instruction tuning: Which makes a better {Alpaca}", author="Pinzhen Chen and Shaoxiong Ji and Nikolay Bogoychev and Andrey Kutuzov and Barry Haddow and Kenneth Heafield", year="2024", booktitle = "Findings of the Association for Computational Linguistics: EACL 2024", } ```
提供机构:
pinzhenchen
原始信息汇总

数据集描述

该数据集是用于研究单语与多语指令调优的德语Alpaca数据集。

创建

使用

  • 该数据集旨在用于德语指令调优。
  • 数据集包含约52K个实例,格式为JSON。
  • 每个实例包含一个指令、一个输出和一个可选的输入。示例如下: json { "instruction": "Was sind die drei Primärfarben?", "input": "", "output": "Die drei Grundfarben sind rot, blau und gelb. Diese Farben werden primär genannt, weil sie nicht durch das Mischen anderer Farben geschaffen werden können und alle anderen Farben können durch die Kombination in verschiedenen Proportionen hergestellt werden. Im additiven Farbsystem, das für Licht verwendet wird, sind die Primärfarben rot, grün und blau (RGB)." }

已知问题

  • 机器翻译过程可能损坏包含代码、跨语言任务、语法错误纠正任务等的数据。

引用

@inproceedings{chen-etal-2024-monolingual, title="Monolingual or multilingual instruction tuning: Which makes a better {Alpaca}", author="Pinzhen Chen and Shaoxiong Ji and Nikolay Bogoychev and Andrey Kutuzov and Barry Haddow and Kenneth Heafield", year="2024", booktitle = "Findings of the Association for Computational Linguistics: EACL 2024", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作