pinzhenchen/alpaca-cleaned-zh

Name: pinzhenchen/alpaca-cleaned-zh
Creator: pinzhenchen
Published: 2024-03-06 00:56:37
License: 暂无描述

Hugging Face2024-03-06 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/pinzhenchen/alpaca-cleaned-zh

下载链接

链接失效反馈

官方服务：

资源简介：

该HF数据仓库包含用于单语与多语指令调优研究的中文Alpaca数据集。数据集包含约52K个实例，每个实例包括指令、输出和可选的输入，格式为JSON。数据集是从英文Alpaca数据集机器翻译而来，可能存在翻译过程中损坏的数据，特别是包含代码、跨语言任务、语法纠错任务等的数据。

This Hugging Face (HF) dataset repository contains the Chinese Alpaca dataset for monolingual and multilingual instruction tuning research. The dataset consists of approximately 52,000 instances, each containing an instruction, an output, and an optional input, formatted in JSON. The dataset was machine-translated from the English Alpaca dataset, and may contain corrupted data during the translation process, particularly for instances involving code, cross-lingual tasks, and grammatical error correction tasks.

提供机构：

pinzhenchen

原始信息汇总

数据集概述

基本信息

许可证: cc-by-nc-4.0
任务类别:
- 文本生成
- 问答
语言:
- 中文
标签:
- 指令调优
规模类别:
- 10K<n<100K

数据描述

来源: 该数据集是从yahma/alpaca-cleaned机器翻译成中文的。
用途: 用于中文指令调优。
规模: 大约包含52K个实例。
格式: JSON格式。
实例结构: 每个实例包含一个指令、一个输出和一个可选的输入。

示例

json { "instruction": "三种主要颜色是什么?", "input": "", "output": "三种主要颜色是红色, 蓝色和黄色。这些颜色被称为主要颜色, 因为它们不能通过混合其他颜色来创建, 所有其他颜色都可以通过以各种比例组合来创建。在添加色系中, 用于光线的主要颜色是红色, 绿色和蓝色 (R GB) 。" }

已知问题

机器翻译过程中可能损坏包含代码、跨语言任务、语法错误纠正任务等的数据。

引用

plaintext @inproceedings{chen-etal-2024-monolingual, title="Monolingual or multilingual instruction tuning: Which makes a better {Alpaca}", author="Pinzhen Chen and Shaoxiong Ji and Nikolay Bogoychev and Andrey Kutuzov and Barry Haddow and Kenneth Heafield", year="2024", booktitle = "Findings of the Association for Computational Linguistics: EACL 2024", }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量的指令调优数据集对于提升模型遵循人类指令的能力至关重要。pinzhenchen/alpaca-cleaned-zh数据集通过机器翻译技术构建而成，其源数据为英文的yahma/alpaca-cleaned数据集。构建过程涉及将原始英文指令及其对应输出自动翻译为中文，旨在为中文语境下的指令调优研究提供专门资源。该过程生成了约五万两千个实例，每个实例均以JSON格式封装，包含了指令、输出及可选的输入字段，为后续的模型训练奠定了结构化数据基础。

特点

该数据集的核心特征在于其专注于中文指令调优任务，填补了该语言领域专用资源的空白。数据实例结构清晰，明确区分为指令、输入和输出三个部分，这种设计便于模型理解任务要求并生成相应回复。然而，由于采用机器翻译方式构建，数据集中可能包含代码、跨语言任务或语法纠错任务等内容的翻译误差，这是使用过程中需要留意的一个潜在局限。尽管如此，它仍为探究单语与多语指令调优的对比效应提供了关键的中文语料支撑。

使用方法

该数据集主要用于中文指令调优实验，以训练或微调文本生成模型遵循复杂指令的能力。研究人员或开发者可直接加载其JSON格式文件，利用其中的“instruction”、“input”和“output”字段构建监督学习任务。典型应用场景包括将指令与输入拼接作为模型提示，并以输出作为训练目标，从而优化模型在中文开放域问答与指令执行方面的性能。在使用时，建议对机器翻译可能引入的噪声保持警觉，并可结合其他中文数据进行补充或清洗，以提升训练效果与鲁棒性。

背景与挑战

背景概述

随着大规模语言模型在自然语言处理领域的广泛应用，指令微调技术成为提升模型遵循人类指令能力的关键途径。pinzhenchen/alpaca-cleaned-zh数据集由研究团队于2023年创建，旨在探索单语与多语指令微调对模型性能的影响。该数据集基于yahma/alpaca-cleaned通过机器翻译转化为中文版本，包含约5.2万条实例，每条实例由指令、可选输入及输出构成，专门用于中文指令微调任务。其研究背景源于对多语言环境下模型适应性的深入探讨，相关成果发表于计算语言学会议，为中文自然语言生成与问答系统的优化提供了重要数据支撑。

当前挑战

该数据集致力于解决中文指令微调中的领域挑战，核心在于提升语言模型对中文指令的理解与生成能力，以弥合多语言模型在特定语言任务上的性能差距。构建过程中，机器翻译方法虽高效扩展了数据规模，却引入了潜在的数据损坏问题，例如代码片段、跨语言任务及语法纠错等内容可能在翻译过程中失真，影响数据质量与可靠性。这些挑战要求研究者在数据应用时需谨慎评估其局限性，并推动更精细的数据清洗与验证机制的发展。

常用场景

经典使用场景

在自然语言处理领域，指令调优已成为提升模型遵循人类指令能力的关键技术。alpaca-cleaned-zh数据集作为中文指令调优的经典资源，其核心应用场景在于训练和评估大型语言模型在中文环境下的指令理解和生成能力。通过提供超过五万条结构化的指令-输出对，该数据集使研究者能够系统性地优化模型在多样化中文任务中的表现，涵盖从简单问答到复杂推理的广泛范畴，为中文自然语言处理研究奠定了坚实的数据基础。

衍生相关工作

围绕该数据集，学术社区已衍生出一系列经典研究工作。其直接支撑了原论文《Monolingual or Multilingual Instruction Tuning: Which Makes a Better Alpaca》中对单语与多语调优策略的比较分析。此外，该数据集常被用作基准，评估如ChatGLM、Qwen等中文大模型在指令遵循任务上的性能。后续研究也常以其为起点，进行数据质量优化、领域适应性扩展或构建更庞大的中文指令数据集，持续推动中文指令学习生态的发展。

数据集最近研究