pinzhenchen/alpaca-cleaned-es
收藏Hugging Face2024-03-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/pinzhenchen/alpaca-cleaned-es
下载链接
链接失效反馈官方服务:
资源简介:
该HF数据仓库包含用于单语与多语指令调优研究的西班牙语Alpaca数据集。数据集包含约52K个实例,每个实例包含指令、输出和可选的输入。数据集是通过机器翻译从yahma/alpaca-cleaned数据集翻译成西班牙语的。
该HF数据仓库包含用于单语与多语指令调优研究的西班牙语Alpaca数据集。数据集包含约52K个实例,每个实例包含指令、输出和可选的输入。数据集是通过机器翻译从yahma/alpaca-cleaned数据集翻译成西班牙语的。
提供机构:
pinzhenchen
原始信息汇总
数据集描述
本数据集为西班牙语Alpaca数据集,用于单语与多语指令调优的研究。
创建
- 由yahma/alpaca-cleaned机器翻译成西班牙语。
使用
- 该数据集旨在用于西班牙语指令调优。
- 数据集包含约52K个实例,格式为JSON。
- 每个实例包含一个指令、一个输出和一个可选的输入。示例如下: json { "instruction": "Cuáles son los tres colores primarios?", "input": "", "output": "Los tres colores primarios son rojo, azul y amarillo. Estos colores se llaman primarios porque no pueden ser creados mezclando otros colores y todos los otros colores se pueden hacer combinando en varias proporciones. En el sistema de color aditivo, utilizado para la luz, los colores primarios son rojo, verde y azul (RGB)." }
已知问题
- 机器翻译过程可能损坏包含代码、跨语言任务、语法错误纠正任务等的数据。
引用
@inproceedings{chen-etal-2024-monolingual, title="Monolingual or multilingual instruction tuning: Which makes a better {Alpaca}", author="Pinzhen Chen and Shaoxiong Ji and Nikolay Bogoychev and Andrey Kutuzov and Barry Haddow and Kenneth Heafield", year="2024", booktitle = "Findings of the Association for Computational Linguistics: EACL 2024", }



