five

pinzhenchen/alpaca-cleaned-fi

收藏
Hugging Face2024-03-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/pinzhenchen/alpaca-cleaned-fi
下载链接
链接失效反馈
官方服务:
资源简介:
该HF数据仓库包含用于单语与多语指令调优研究的芬兰Alpaca数据集。数据集是从yahma/alpaca-cleaned机器翻译成芬兰语的,主要用于芬兰语的指令调优。数据集包含约52K个实例,每个实例包含指令、输出和可选的输入。已知问题是机器翻译过程可能损坏了包含代码、跨语言任务、语法错误纠正任务等的数据。

该HF数据仓库包含用于单语与多语指令调优研究的芬兰Alpaca数据集。数据集是从yahma/alpaca-cleaned机器翻译成芬兰语的,主要用于芬兰语的指令调优。数据集包含约52K个实例,每个实例包含指令、输出和可选的输入。已知问题是机器翻译过程可能损坏了包含代码、跨语言任务、语法错误纠正任务等的数据。
提供机构:
pinzhenchen
原始信息汇总

数据集描述

数据集概述

  • 许可协议: cc-by-nc-4.0
  • 任务类别:
    • 文本生成
    • 问答
  • 语言:
    • 芬兰语
  • 标签:
    • 指令调优
  • 数据规模:
    • 10K<n<100K

创建过程

使用说明

  • 该数据集用于芬兰语指令调优。
  • 数据集包含约52K个实例,格式为JSON。
  • 每个实例包含一个指令、一个输出和一个可选的输入。示例如下: json { "instruction": "Mitkä ovat kolme pääväriä?", "input": "", "output": "Kolme pääväriä ovat punaiset, siniset ja keltaiset. Näitä värejä kutsutaan primääriksi, koska niitä ei voida luoda sekoittamalla muita värejä ja kaikki muut värit voidaan tehdä yhdistämällä ne eri suhteissa. Valoon käytettävässä lisäainevärijärjestelmässä päävärit ovat punaiset, vihreät ja siniset (RGB)." }

已知问题

  • 机器翻译过程可能损坏包含代码、跨语言任务、语法错误纠正任务等的数据。

引用

plaintext @inproceedings{chen-etal-2024-monolingual, title="Monolingual or multilingual instruction tuning: Which makes a better {Alpaca}", author="Pinzhen Chen and Shaoxiong Ji and Nikolay Bogoychev and Andrey Kutuzov and Barry Haddow and Kenneth Heafield", year="2024", booktitle = "Findings of the Association for Computational Linguistics: EACL 2024", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作