five

pinzhenchen/alpaca-cleaned-es

收藏
Hugging Face2024-03-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/pinzhenchen/alpaca-cleaned-es
下载链接
链接失效反馈
官方服务:
资源简介:
该HF数据仓库包含用于单语与多语指令调优研究的西班牙语Alpaca数据集。数据集包含约52K个实例,每个实例包含指令、输出和可选的输入。数据集是通过机器翻译从yahma/alpaca-cleaned数据集翻译成西班牙语的。

该HF数据仓库包含用于单语与多语指令调优研究的西班牙语Alpaca数据集。数据集包含约52K个实例,每个实例包含指令、输出和可选的输入。数据集是通过机器翻译从yahma/alpaca-cleaned数据集翻译成西班牙语的。
提供机构:
pinzhenchen
原始信息汇总

数据集描述

本数据集为西班牙语Alpaca数据集,用于单语与多语指令调优的研究。

创建

使用

  • 该数据集旨在用于西班牙语指令调优。
  • 数据集包含约52K个实例,格式为JSON。
  • 每个实例包含一个指令、一个输出和一个可选的输入。示例如下: json { "instruction": "Cuáles son los tres colores primarios?", "input": "", "output": "Los tres colores primarios son rojo, azul y amarillo. Estos colores se llaman primarios porque no pueden ser creados mezclando otros colores y todos los otros colores se pueden hacer combinando en varias proporciones. En el sistema de color aditivo, utilizado para la luz, los colores primarios son rojo, verde y azul (RGB)." }

已知问题

  • 机器翻译过程可能损坏包含代码、跨语言任务、语法错误纠正任务等的数据。

引用

@inproceedings{chen-etal-2024-monolingual, title="Monolingual or multilingual instruction tuning: Which makes a better {Alpaca}", author="Pinzhen Chen and Shaoxiong Ji and Nikolay Bogoychev and Andrey Kutuzov and Barry Haddow and Kenneth Heafield", year="2024", booktitle = "Findings of the Association for Computational Linguistics: EACL 2024", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作