Awesome Chinese Instruction Tuning Dataset

github2023-04-23 更新2024-05-31 收录

下载链接：

https://github.com/andy-yangz/Awesome-Chinese-Instruction-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

用来训类 ChatGPT 模型的中文指令数据集收集。数据标签包括人类生成数据、机器生成数据、通过 Self-Instruct 方法搜集的数据、通过模板生成的数据、翻译的数据和混合数据。

A collection of Chinese instruction datasets for training ChatGPT-like models. The data labels include human-generated data, machine-generated data, data collected through the Self-Instruct method, template-generated data, translated data, and mixed data.

创建时间：

2023-04-22

原始信息汇总

Awesome Chinese Instruction Tuning Dataset 概述

数据集详情

Belle|2M|SI
- 简介：主要通过 Self-Instruct 生成的两百万指令和回答数据。
- 机构：链家。
- 许可：gpl-3.0。
Alpaca-GPT4|49k|MG-GPT4
- 简介：Alpaca 获得的 ShareGPT 的52k Instruction，通过GPT4进行翻译，然后对 GPT 4 的回答进行抓取。
- 机构：微软。
- 许可：Apache-2.0。
COIG|190k|MIX
- 简介：从各个来源比如考试题和 LeetCode 搜集到的通过模板构建，还有翻译英文的 Instruction 数据。
- 机构：智源。
- 许可：Apache 2.0。
HC3-ZH|13k|MG-ChatGPT
- 简介：从各个来源如百科、贴吧、法律、金融等网站抓取下来问题，然后抓取 ChatGPT 生成。
- 机构：万得资讯。
- 许可：cc-by-sa-4.0。
MOSS-002-SFT|590k|MG-text-davinci-003
- 简介：通过 Self-Instruct 构建的 59 万的 SFT 数据，主要用 text-davinci-003 接口生成。
- 机构：复旦。
- 许可：cc-by-4.0。
shareGPT_cn|26k|TSL
- 简介：某热心网友对 shareGPT 的翻译数据。
- 机构：shareAI。
- 许可：apache-2.0。
OASST1-zh|2k|HG
- 简介：开源 Open Assistant 项目通过页面网友们标注的数据，有小部分中文数据。
- 机构：开源。
- 许可：apache-2.0。

搜集汇总

数据集介绍

构建方式

Awesome Chinese Instruction Tuning Dataset 的构建方式多样且精细，涵盖了多种数据生成方法。数据集通过人类生成（HG）、机器生成（MG）、自指导（SI）、模板生成（TP）、翻译（TSL）以及混合（MIX）等多种方式获取数据。具体而言，Belle 数据集通过 Self-Instruct 方法生成两百万条指令和回答数据，Alpaca-GPT4 数据集则通过 GPT-4 翻译并抓取回答，COIG 数据集则从考试题和 LeetCode 等来源通过模板构建和翻译英文指令数据。这些多样化的构建方法确保了数据集的广泛性和代表性。

使用方法

使用 Awesome Chinese Instruction Tuning Dataset 时，用户可以根据具体需求选择不同的子数据集进行训练和测试。例如，Belle 数据集适用于需要大量指令数据的场景，Alpaca-GPT4 数据集则适用于需要高质量回答的场景，COIG 数据集则适用于需要多样化指令数据的场景。用户可以通过 Hugging Face 平台获取这些数据集，并根据各自的许可协议进行使用。此外，数据集的使用方法还包括通过 API 接口调用模型生成回答，或者直接下载数据集进行本地训练和测试。

背景与挑战

背景概述

Awesome Chinese Instruction Tuning Dataset 是一个专注于中文指令调优的数据集，旨在为训练类似 ChatGPT 的模型提供高质量的中文指令数据。该数据集由多个子数据集组成，涵盖了从人类生成到机器生成、自指导生成、模板生成以及翻译数据等多种数据生成方式。数据集的主要贡献者包括链家、微软、智源、万得资讯、复旦等知名机构，涵盖了从2022年到2023年的多个研究项目。这些数据集不仅推动了中文自然语言处理领域的发展，还为多任务学习和指令调优模型的研究提供了丰富的数据支持。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，中文指令数据的多样性和复杂性要求数据生成过程必须兼顾语言的丰富性和准确性，尤其是在机器生成数据时，如何确保生成的内容符合中文语言习惯和逻辑是一个关键问题。其次，数据集的构建依赖于多种生成方式，如自指导生成和模板生成，这些方法在数据质量和多样性之间需要找到平衡点。此外，翻译数据的引入虽然丰富了数据集的多样性，但也带来了翻译质量不一致的问题，尤其是在跨语言转换时可能丢失部分语义信息。最后，数据集的规模庞大，如何高效地管理和标注这些数据，确保其在实际应用中的有效性，也是一个亟待解决的挑战。

常用场景

经典使用场景

在自然语言处理领域，Awesome Chinese Instruction Tuning Dataset 主要用于训练和优化中文指令跟随模型，如类ChatGPT模型。该数据集通过多种数据生成方式，包括人类生成、机器生成、自指导生成等，提供了丰富的中文指令和回答对，极大地促进了模型在理解和执行中文指令方面的能力。

解决学术问题

该数据集解决了中文自然语言处理中的一个关键问题，即缺乏高质量、多样化的中文指令数据集。通过提供大规模、多来源的中文指令数据，研究者能够更有效地训练和评估模型，提升模型在实际应用中的表现和适应性。

实际应用

在实际应用中，Awesome Chinese Instruction Tuning Dataset 被广泛应用于智能客服、教育辅导、内容创作等领域。通过训练基于该数据集的模型，企业能够提供更加精准和人性化的服务，如自动回答用户咨询、生成教育内容等，从而提升用户体验和满意度。

数据集最近研究