pinzhenchen/alpaca-cleaned-cs
收藏Hugging Face2024-03-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/pinzhenchen/alpaca-cleaned-cs
下载链接
链接失效反馈官方服务:
资源简介:
该HF数据仓库包含用于研究单语言与多语言指令调优的捷克语Alpaca数据集。数据集是通过机器翻译从yahma/alpaca-cleaned翻译成捷克语创建的,包含约52K个实例,每个实例包含指令、输出和可选的输入。数据集旨在用于捷克语指令调优。已知问题是机器翻译过程可能损坏了包含代码、跨语言任务、语法错误纠正任务等的数据。
该HF数据仓库包含用于研究单语言与多语言指令调优的捷克语Alpaca数据集。数据集是通过机器翻译从yahma/alpaca-cleaned翻译成捷克语创建的,包含约52K个实例,每个实例包含指令、输出和可选的输入。数据集旨在用于捷克语指令调优。已知问题是机器翻译过程可能损坏了包含代码、跨语言任务、语法错误纠正任务等的数据。
提供机构:
pinzhenchen
原始信息汇总
数据集描述
该数据集是用于研究单语与多语指令调优的捷克语Alpaca数据集。
创建
- 该数据集是通过机器翻译从yahma/alpaca-cleaned转换为捷克语的。
使用
- 该数据集旨在用于捷克语指令调优。
- 数据集包含约52K个实例,格式为JSON。
- 每个实例包含一个指令、一个输出和一个可选的输入。示例如下: json { "instruction": "Jaké jsou tři základní barvy?", "input": "", "output": "Tři základní barvy jsou červená, modrá a žlutá. Tyto barvy se nazývají primárními, protože nemohou být vytvořeny smícháním jiných barev a všechny ostatní barvy mohou být vytvořeny jejich kombinací v různých proporcích. V aditivním barevném systému, který se používá pro světlo, jsou základní barvy červená, zelená a modrá (RGB)." }
已知问题
- 机器翻译过程可能损坏包含代码、跨语言任务、语法错误纠正任务等的数据。
引用
plaintext @inproceedings{chen-etal-2024-monolingual, title="Monolingual or multilingual instruction tuning: Which makes a better {Alpaca}", author="Pinzhen Chen and Shaoxiong Ji and Nikolay Bogoychev and Andrey Kutuzov and Barry Haddow and Kenneth Heafield", year="2024", booktitle = "Findings of the Association for Computational Linguistics: EACL 2024", }



