Guanaco Dataset

github2023-04-12 更新2024-05-31 收录

下载链接：

https://github.com/basicv8vc/chinese-instruction-datasets-for-llms

下载链接

链接失效反馈

官方服务：

资源简介：

多语言指令数据集，规模还会更新至92530

Multilingual instruction dataset, with the scale expected to be updated to 92,530.

创建时间：

2023-03-29

原始信息汇总

中文指令数据集概述

Guanaco Dataset

Size: 27,808
Description: 多语言指令数据集，规模将更新至92,530
Source: Guanaco

alpaca_chinese_dataset

Size: 正在更新中
Description: 将Alpaca数据集进行机器翻译+人工校验，并补充一些对话数据
Source: Stanford Alpaca

alpaca-chinese-dataset

Size: 20,465
Description: 将Alpaca数据集进行机器翻译得到
Source: Stanford Alpaca

Chinese-alpaca-lora

Size: 更新中
Description: 将Alpaca数据集进行机器翻译得到，翻译模型是gpt-3.5-turbo, 后续会结合Guanaco数据集
Source: Stanford Alpaca

GPT-4-LLM

Size: 52k
Description: 将Alpaca数据集的prompt利用ChatGPT进行翻译，然后利用GPT-4得到中文Response
Source: Stanford Alpaca

BelleGroup/train_0.5M_CN

Size: 0.5M
Description: 作者创建的中文种子prompt，利用text-davinci-003得到Response
Source: BELLE

BelleGroup/train_1M_CN

Size: 1M
Description: 同上中文种子prompt，利用text-davinci-003得到Response，进行了数据清洗
Source: BELLE

BelleGroup/school_math_0.25M

Size: 0.25M
Description: 中文数学题数据，包含解题过程，由ChatGPT产生
Source: BELLE

BelleGroup/multiturn_chat_0.8M

Size: 0.8M
Description: 用户与助手的多轮对话，由ChatGPT产生
Source: BELLE

BelleGroup/generated_chat_0.4M

Size: 0.4M
Description: 个性化角色对话数据，包含角色介绍，由ChatGPT产生
Source: BELLE

BelleGroup/train_2M_CN

Size: 2M
Description: 中文指令数据，由ChatGPT产生
Source: BELLE

搜集汇总

数据集介绍

构建方式

Guanaco数据集的构建采用了多语言指令数据集的设计理念，通过整合和扩展现有的指令数据，形成了一个包含27808条记录的初始版本，并计划进一步扩展至92530条。该数据集的构建过程涉及从多种来源收集数据，并利用先进的自然语言处理技术进行数据清洗和格式化，以确保数据的高质量和多样性。

特点

Guanaco数据集的一个显著特点是其多语言支持，尤其是对中文的优化。数据集不仅包含了大量的中文指令数据，还通过持续的更新和扩展，保持了数据的时效性和广泛性。此外，数据集的构建注重指令的多样性和复杂性，旨在为训练更智能的语言模型提供丰富的学习材料。

使用方法

Guanaco数据集主要用于训练和微调大型语言模型，特别是在中文环境下的应用。研究人员和开发者可以通过该数据集进行模型的预训练和微调，以提高模型在理解和生成中文指令方面的能力。数据集的使用方法包括直接下载数据文件，利用提供的API进行数据访问，或集成到现有的机器学习框架中进行模型训练。

背景与挑战

背景概述

随着大型语言模型（LLMs）的快速发展，尤其是ChatGPT的广泛应用，中文指令数据集的需求日益增长。Guanaco数据集应运而生，旨在填补中文指令数据集的空白。该数据集由开源社区主导，基于Self-Instruct方法，通过Instruct/ChatGPT生成指令数据，并用于小规模LLM的微调。Guanaco数据集不仅包含多语言指令，还计划扩展至更大规模，以支持中文LLM的研究与应用。其创建时间较新，主要研究人员和机构包括开源社区中的多个贡献者，核心研究问题在于如何通过高质量的中文指令数据提升LLM的中文处理能力。该数据集的出现为中文自然语言处理领域注入了新的活力，推动了中文LLM的发展。

当前挑战

Guanaco数据集在构建和应用过程中面临多重挑战。首先，中文指令数据集的稀缺性使得数据收集和生成成为首要难题，尤其是在确保数据质量和多样性的前提下。其次，数据集的构建依赖于机器翻译和人工校验，这一过程不仅耗时，还可能引入翻译误差，影响数据的准确性。此外，如何确保生成的中文指令数据与英文原数据在语义和语境上保持一致，也是一个亟待解决的问题。最后，随着数据规模的扩大，数据清洗和去重工作变得愈发复杂，如何在保证数据量的同时提升数据质量，是数据集构建中的一大挑战。这些挑战不仅影响了数据集的构建效率，也对后续LLM的微调效果产生了深远影响。

常用场景

经典使用场景

Guanaco数据集作为多语言指令数据集，广泛应用于自然语言处理领域，特别是在中文语言模型的微调过程中。通过提供高质量的中文指令数据，研究人员能够在小规模语言模型上进行精细调整，从而提升模型在中文语境下的表现。这一数据集的使用不仅限于学术研究，也为工业界提供了宝贵的资源，助力开发更智能的中文对话系统。

解决学术问题

Guanaco数据集解决了中文指令数据稀缺的问题，为研究人员提供了丰富的中文指令数据，使得在小规模语言模型上进行微调成为可能。这一数据集的出现，极大地推动了中文自然语言处理领域的发展，特别是在提升模型对中文语境的理解和生成能力方面。通过使用这一数据集，研究人员能够更有效地训练出性能优越的中文语言模型，填补了中文指令数据集的空白。

衍生相关工作

Guanaco数据集的推出，催生了一系列相关研究工作。例如，基于该数据集的中文语言模型微调技术得到了显著提升，许多研究人员在此基础上开发了新的算法和模型。此外，该数据集还促进了中文指令数据集的标准化和规范化，为后续的研究工作提供了宝贵的参考和借鉴。这些衍生工作不仅丰富了中文自然语言处理领域的研究内容，也为相关技术的进一步发展奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集