lorinma/EvolInstruct_zh_GPT3.5

Name: lorinma/EvolInstruct_zh_GPT3.5
Creator: lorinma
Published: 2024-01-02 06:11:31
License: 暂无描述

Hugging Face2024-01-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lorinma/EvolInstruct_zh_GPT3.5

下载链接

链接失效反馈

官方服务：

资源简介：

--- task_categories: - conversational - text-generation language: - zh size_categories: - 10K<n<100K --- 私以为这并不是一次很成功的尝试。猜测一个主要原因是prompt依然是英文的，只是增加了the locale of the prompt is mainland china. 因为WizardLM系列长期霸榜LLM开源榜，一直很好奇EvolInstruct在英文世界表现出的对于复杂prompt的应对能力。目前中文没有原生的EvolInstruct，仅有两个翻译版本 [1](https://huggingface.co/datasets/FreedomIntelligence/Evol-Instruct-Chinese-GPT4) [2](https://huggingface.co/datasets/silk-road/Wizard-LM-Chinese-instruct-evol)。故浅浅尝试复现中文版本。代码参照 [3](https://github.com/h2oai/h2o-wizardlm/blob/main/wizardlm.py) 但无奈接口实在是太贵，且生成的时间很长。所以如果有能够提供GPT-4 API资源的，我很乐意将这个量级撑到50K+并进行公开。一共有3个文件： combined_seed_correct.json 是使用的基础种子任务371条，alpaca格式。使用了 [Belle的中文种子任务175条](https://github.com/LianjiaTech/BELLE)。并且参照了 [4](https://huggingface.co/datasets/WizardLM/WizardLM_evol_instruct_V2_196k) 增加了ShareGPT的数据以更接近真实世界的用法，掺入了 [Wildchat-zh抽样196条](https://huggingface.co/datasets/lorinma/Wildchat_zh_sharegpt_Subsample_20K) ，多轮对话只采用第一个有意义的问答对。 231213_ChineseEvolInstruct_140_gpt-4-1106-preview.json 使用gpt-4-1106-preview，因为太贵且接口不稳定，故只生成了140条。这里犯了一个错误，只使用了instruction而忽略了input，所以evol的基础不完整。接口花费约几百人民币。 231214_ChineseEvolInstruction_11k_3.5-turbo-0613.json 修正了错误，即将instruction和input进行concat，使用3.5-turbo-0613接口生成了共计1.1万个alpaca格式的问答对。接口花费约一千人民币，生成时间约24小时。

**数据集元数据** 任务类别： - 对话式（conversational） - 文本生成（text-generation）语言： - 中文（zh）规模类别： - 10,000 < 样本数量 < 100,000 --- 笔者认为本次尝试并不算十分成功，推测其核心原因在于提示词（prompt）仍为英文，仅额外添加了`the locale of the prompt is mainland china`这一配置。鉴于WizardLM系列长期占据大语言模型（LLM）开源榜单前列，笔者一直对EvolInstruct在英文语境下应对复杂提示词的能力抱有浓厚兴趣。当前中文领域尚无原生的EvolInstruct实现，仅存在两个翻译衍生版本：[1](https://huggingface.co/datasets/FreedomIntelligence/Evol-Instruct-Chinese-GPT4)、[2](https://huggingface.co/datasets/silk-road/Wizard-LM-Chinese-instruct-evol)。因此笔者尝试复现中文版本的EvolInstruct，代码参考自[3](https://github.com/h2oai/h2o-wizardlm/blob/main/wizardlm.py)。但受限于API调用成本高昂且生成耗时过长，若有渠道可提供GPT-4应用程序编程接口（API）资源，笔者将乐于将数据集规模扩充至5万条以上并公开共享。本次数据集共包含3个文件： 1. `combined_seed_correct.json`：采用alpaca格式，共包含371条基础种子任务。该数据集整合了[Belle开源项目的175条中文种子任务](https://github.com/LianjiaTech/BELLE)，并参考[4](https://huggingface.co/datasets/WizardLM/WizardLM_evol_instruct_V2_196k)补充了ShareGPT相关数据以更贴合真实使用场景；同时掺入了[Wildchat-zh抽样的196条数据](https://huggingface.co/datasets/lorinma/Wildchat_zh_sharegpt_Subsample_20K)，且仅保留每条多轮对话中的首个有效问答对。 2. `231213_ChineseEvolInstruct_140_gpt-4-1106-preview.json`：基于GPT-4-1106-preview模型生成，受限于高昂的调用成本与不稳定的接口，最终仅生成140条数据。本次生成存在一处疏漏：仅使用了instruction字段而忽略了input字段，导致EvolInstruct的生成基础不完整，本次接口调用成本约数百元人民币。 3. `231214_ChineseEvolInstruction_11k_3.5-turbo-0613.json`：修正了前述疏漏，将instruction与input字段进行拼接后，基于GPT-3.5-turbo-0613接口生成了共计1.1万条alpaca格式的问答对。本次接口调用成本约一千元人民币，总生成耗时约24小时。

提供机构：

lorinma

原始信息汇总

数据集概述

任务类别

对话
文本生成

语言

中文

数据规模

10K<n<100K

文件列表

combined_seed_correct.json
- 基础种子任务371条，采用alpaca格式。
- 包含Belle的中文种子任务175条。
- 增加了ShareGPT的数据以接近真实世界用法。
- 掺入Wildchat-zh抽样196条，多轮对话只采用第一个有意义的问答对。
231213_ChineseEvolInstruct_140_gpt-4-1106-preview.json
- 使用gpt-4-1106-preview接口，生成140条。
- 仅使用instruction而忽略input，基础不完整。
- 接口花费约几百人民币。
231214_ChineseEvolInstruction_11k_3.5-turbo-0613.json
- 修正错误，将instruction和input进行concat。
- 使用3.5-turbo-0613接口生成1.1万个alpaca格式的问答对。
- 接口花费约一千人民币，生成时间约24小时。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量指令数据集对模型性能提升至关重要。该数据集构建过程融合了多源种子任务，包括Belle中文种子任务及ShareGPT数据，并掺入Wildchat-zh抽样对话以增强真实性。通过EvolInstruct方法，采用GPT-4与GPT-3.5接口分阶段生成，首阶段因忽略input字段导致基础不完整，后续修正为合并instruction与input内容，最终生成逾万条Alpaca格式问答对，体现了迭代优化与资源权衡的设计思路。

特点

该数据集专注于中文对话与文本生成任务，规模介于一万至十万条之间，具备多轮对话处理能力。其核心特点在于采用EvolInstruct框架适配中文语境，通过复杂指令演化增强模型应对能力。数据格式统一为Alpaca结构，融合了真实世界对话样本与人工构建任务，既包含单轮问答对，也涵盖多轮对话的首轮有效交互，平衡了多样性与应用场景覆盖。

使用方法

该数据集适用于训练或微调中文对话生成模型，用户可直接加载JSON格式文件进行预处理。建议将instruction与input字段拼接作为模型输入，输出对应回答文本。对于多轮对话数据，可提取首轮问答对构建训练样本。研究者可借鉴其演化指令方法扩展数据规模，或结合其他中文数据集进行混合训练，以提升模型在复杂指令下的语言理解与生成能力。

背景与挑战

背景概述

在自然语言处理领域，指令微调数据集的构建对于提升大型语言模型的中文对话与文本生成能力至关重要。lorinma/EvolInstruct_zh_GPT3.5数据集由研究人员lorinma于2023年创建，旨在填补中文EvolInstruct指令演化数据的空白。该数据集借鉴了WizardLM系列在英文世界中的成功经验，通过结合Belle中文种子任务、ShareGPT数据及Wildchat-zh抽样，构建了一个包含约1.1万条Alpaca格式问答对的中文指令演化数据集，为中文复杂指令理解与生成任务提供了重要资源。

当前挑战

该数据集致力于解决中文复杂指令理解与生成任务的挑战，其核心在于如何通过指令演化技术提升模型对多样化、多层次中文提示的响应能力。在构建过程中，面临多重困难：一是经济成本高昂，GPT-4接口的使用导致数百至上千人民币的支出；二是技术实现复杂，初期因忽略input字段而影响了指令演化的完整性；三是资源限制显著，API接口的不稳定与生成时长约24小时制约了数据规模的扩展，使得目标量级难以达到50K以上。

常用场景

经典使用场景

在自然语言处理领域，指令调优数据集对于提升大型语言模型的中文复杂指令遵循能力至关重要。lorinma/EvolInstruct_zh_GPT3.5数据集通过演化指令技术，模拟真实世界中的多轮对话和多样化任务，为模型训练提供了高质量的中文指令-响应对。该数据集典型应用于训练和评估对话生成模型，帮助模型学习如何理解和执行从简单到复杂的多层次中文指令，从而增强其在开放域对话中的适应性和准确性。

实际应用

在实际应用中，lorinma/EvolInstruct_zh_GPT3.5数据集可用于开发智能客服、教育辅助工具和内容创作系统。基于该数据集训练的模型能够更好地处理中文用户查询，提供更自然、准确的对话响应，提升用户体验。在商业场景中，它支持个性化推荐和自动化文案生成，帮助企业优化服务流程，降低人力成本，同时推动人工智能技术在中文市场的落地与普及。

衍生相关工作

该数据集衍生自WizardLM系列的EvolInstruct方法，并借鉴了Belle中文种子任务和ShareGPT数据，形成了中文语境下的创新扩展。相关经典工作包括FreedomIntelligence和silk-road团队的中文翻译版本，这些工作共同丰富了中文指令数据集生态。后续研究可基于此数据集探索更高效的指令演化算法，或将其应用于多模态任务，进一步拓展中文AI模型的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集