silk-road/Wizard-LM-Chinese-instruct-evol

Hugging Face2023-05-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/silk-road/Wizard-LM-Chinese-instruct-evol

下载链接

链接失效反馈

资源简介：

Wizard-LM-Chinese数据集是基于MSRA的Wizard-LM数据集，通过翻译指令并调用GPT获得答案的数据集。该数据集包含了许多难度超过Alpaca的指令。在中文问题翻译过程中，可能会有少量指令注入导致翻译失败的情况。中文回答是根据中文问题再进行问询得到的。

提供机构：

silk-road

原始信息汇总

数据集概述

数据集名称

Wizard-LM-Chinese

数据集描述

基于MSRA的Wizard-LM数据集，通过翻译指令并调用GPT获得答案。
包含难度超过Alpaca的指令。
存在少量因指令注入导致的中文翻译失败情况。
中文回答是根据中文问题再进行问询得到的。

语言

中文 (zh)
英文 (en)

任务类别

文本生成 (text-generation)
问答 (question-answering)

数据集大小

10K<n<100K

许可

CC-BY-4.0

相关数据集计划

[x] WizardLM的中文翻译已发布
[ ] Coco Caption的中文翻译
[ ] CoQA的中文翻译
[ ] CNewSum的Embedding数据
[ ] 增广的开放QA数据

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量指令数据集对于提升模型性能至关重要。Wizard-LM-Chinese-instruct-evol数据集基于MSRA的Wizard-LM英文指令集构建，通过专业翻译流程将原始英文指令转化为中文，并借助GPT模型针对翻译后的中文问题生成相应答案。构建过程中，尽管存在少量指令注入导致的翻译偏差，但整体上实现了对复杂指令的有效本地化处理，为中文大语言模型训练提供了丰富的指令-答案对资源。

特点

该数据集显著特点在于其指令难度超越了常见的Alpaca数据集，涵盖了更为复杂和多样化的自然语言理解任务。数据集中文指令经过精心翻译，确保了语言的地道性和准确性，同时答案部分由GPT模型根据中文问题重新生成，保证了回答与问题之间的语义一致性。数据集规模适中，介于一万至十万条数据之间，兼具质量与多样性，适用于训练和评估中文大语言模型的指令遵循能力。

使用方法

研究人员和开发者可通过HuggingFace平台直接加载该数据集，用于中文大语言模型的监督微调或指令遵循能力评估。典型应用场景包括模型在文本生成和问答任务上的性能优化。使用时应关注数据集的许可证要求，并注意其中可能存在的少量翻译异常样本。该数据集可作为骆驼等开源中文大语言模型项目的重要训练资源，推动中文自然语言处理技术的发展。

背景与挑战

背景概述

在人工智能自然语言处理领域，高质量指令微调数据集的构建对于提升大语言模型的理解与生成能力至关重要。Wizard-LM-Chinese-instruct-evol数据集于2023年由商汤科技、华中师范大学等机构的研究人员共同创建，其核心研究问题在于如何将英文指令数据集有效转化为中文语境，以支持中文大语言模型的指令跟随能力优化。该数据集基于MSRA的Wizard-LM数据集，通过翻译与GPT辅助生成答案，显著丰富了中文指令数据的多样性，对推动中文对话模型的发展具有重要影响力。

当前挑战

该数据集旨在解决中文大语言模型在复杂指令理解与生成方面的挑战，其构建过程面临多重困难。一方面，原始英文指令的难度较高，超越常见基准，导致翻译过程中可能出现语义偏差或指令注入失败，影响数据质量。另一方面，依赖GPT生成中文答案虽能提升响应相关性，但也引入了模型依赖性与答案一致性的风险，需确保生成内容与翻译后指令的精准对齐。此外，数据集的扩展与多数据集整合工作仍需克服资源协调与质量控制的难题。

常用场景

经典使用场景

在自然语言处理领域，指令遵循型数据集的构建对于提升模型的理解与生成能力至关重要。Wizard-LM-Chinese-instruct-evol数据集通过将英文指令翻译为中文，并借助GPT生成相应答案，为中文大语言模型的指令微调提供了高质量资源。该数据集尤其适用于训练模型处理复杂、超越基础Alpaca难度的中文指令任务，涵盖了文本生成与问答等多种场景，成为优化模型在中文语境下遵循复杂指令的核心训练素材。

实际应用

在实际应用中，Wizard-LM-Chinese-instruct-evol数据集能够直接赋能智能客服、教育辅助及内容创作工具的开发。基于该数据集训练的模型可更精准地理解用户的中文复杂查询，生成连贯、相关的回答，提升人机交互的自然度与效率。此外，它也为企业定制化语言模型提供了高质量的微调数据，助力构建更适应中文市场需求的AI产品。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，其中骆驼(Luotuo)中文大语言模型项目便是典型代表。该项目利用此类指令数据进行LoRA微调，推动了开源中文LLM的发展。同时，该数据集也激发了后续对Coco Caption、CoQA等数据集的中文翻译与增广工作，促进了中文NLP社区在数据建设与模型优化方面的协作与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集