leo009/alpaca-cleaned-zh-cn
收藏Hugging Face2024-05-23 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/leo009/alpaca-cleaned-zh-cn
下载链接
链接失效反馈官方服务:
资源简介:
该HF数据仓库包含用于单语与多语指令调优研究的中文Alpaca数据集。数据集是从英文Alpaca数据集机器翻译成中文的,主要用于中文指令调优,包含约52K个实例,每个实例包含指令、输出和可选的输入。已知问题包括机器翻译过程可能损坏了包含代码、跨语言任务、语法错误纠正任务等的数据。
该HF数据仓库包含用于单语与多语指令调优研究的中文Alpaca数据集。数据集是从英文Alpaca数据集机器翻译成中文的,主要用于中文指令调优,包含约52K个实例,每个实例包含指令、输出和可选的输入。已知问题包括机器翻译过程可能损坏了包含代码、跨语言任务、语法错误纠正任务等的数据。
提供机构:
leo009
原始信息汇总
数据集描述
本数据集为中文Alpaca数据集,用于单语与多语指令调优的研究。
创建
- 由yahma/alpaca-cleaned机器翻译成中文。
使用
- 该数据集旨在用于中文指令调优。
- 数据集包含约52K个实例,格式为JSON。
- 每个实例包含一个指令、一个输出和一个可选的输入。示例如下: json { "instruction": "三种主要颜色是什么?", "input": "", "output": "三种主要颜色是红色, 蓝色和黄色。 这些颜色被称为主要颜色, 因为它们不能通过混合其他颜色来创建, 所有其他颜色都可以通过以各种比例组合来创建。 在添加色系中, 用于光线的主要颜色是红色, 绿色和蓝色 (R GB) 。" }
已知问题
- 机器翻译过程可能损坏包含代码、跨语言任务、语法错误纠正任务等的数据。
引用
@inproceedings{chen-etal-2024-monolingual, title="Monolingual or multilingual instruction tuning: Which makes a better {Alpaca}", author="Pinzhen Chen and Shaoxiong Ji and Nikolay Bogoychev and Andrey Kutuzov and Barry Haddow and Kenneth Heafield", year="2024", booktitle = "Findings of the Association for Computational Linguistics: EACL 2024", }
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于中文指令调优的机器翻译数据集,包含约52K个实例,每个实例包含指令、输出和可选的输入字段,适用于自然语言处理任务如文本生成和问答。
以上内容由遇见数据集搜集并总结生成



