five

pinzhenchen/alpaca-cleaned-cs

收藏
Hugging Face2024-03-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/pinzhenchen/alpaca-cleaned-cs
下载链接
链接失效反馈
官方服务:
资源简介:
该HF数据仓库包含用于研究单语言与多语言指令调优的捷克语Alpaca数据集。数据集是通过机器翻译从yahma/alpaca-cleaned翻译成捷克语创建的,包含约52K个实例,每个实例包含指令、输出和可选的输入。数据集旨在用于捷克语指令调优。已知问题是机器翻译过程可能损坏了包含代码、跨语言任务、语法错误纠正任务等的数据。

该HF数据仓库包含用于研究单语言与多语言指令调优的捷克语Alpaca数据集。数据集是通过机器翻译从yahma/alpaca-cleaned翻译成捷克语创建的,包含约52K个实例,每个实例包含指令、输出和可选的输入。数据集旨在用于捷克语指令调优。已知问题是机器翻译过程可能损坏了包含代码、跨语言任务、语法错误纠正任务等的数据。
提供机构:
pinzhenchen
原始信息汇总

数据集描述

该数据集是用于研究单语与多语指令调优的捷克语Alpaca数据集。

创建

使用

  • 该数据集旨在用于捷克语指令调优。
  • 数据集包含约52K个实例,格式为JSON。
  • 每个实例包含一个指令、一个输出和一个可选的输入。示例如下: json { "instruction": "Jaké jsou tři základní barvy?", "input": "", "output": "Tři základní barvy jsou červená, modrá a žlutá. Tyto barvy se nazývají primárními, protože nemohou být vytvořeny smícháním jiných barev a všechny ostatní barvy mohou být vytvořeny jejich kombinací v různých proporcích. V aditivním barevném systému, který se používá pro světlo, jsou základní barvy červená, zelená a modrá (RGB)." }

已知问题

  • 机器翻译过程可能损坏包含代码、跨语言任务、语法错误纠正任务等的数据。

引用

plaintext @inproceedings{chen-etal-2024-monolingual, title="Monolingual or multilingual instruction tuning: Which makes a better {Alpaca}", author="Pinzhen Chen and Shaoxiong Ji and Nikolay Bogoychev and Andrey Kutuzov and Barry Haddow and Kenneth Heafield", year="2024", booktitle = "Findings of the Association for Computational Linguistics: EACL 2024", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作