NLP预训练/指令微调数据集

github2024-04-14 更新2024-05-31 收录

下载链接：

https://github.com/CVI-SZU/Linly

下载链接

链接失效反馈

官方服务：

资源简介：

本项目提供的中文基础模型和对话模型，如Chinese-LLaMA和Chinese-Falcon，以及Linly-ChatFlow，都是基于特定的预训练和指令微调数据集进行训练的。这些数据集包括中文和中英平行语料，用于扩展模型的语言能力到中文，并进行大规模指令跟随训练。

This project provides foundational and conversational models in Chinese, such as Chinese-LLaMA and Chinese-Falcon, along with Linly-ChatFlow, all of which are trained on specific pre-training and instruction fine-tuning datasets. These datasets include Chinese and Chinese-English parallel corpora, aimed at extending the models' linguistic capabilities to Chinese and conducting large-scale instruction-following training.

创建时间：

2023-03-21

原始信息汇总

数据集概述

数据集名称

中文 LLaMA1-2 & Linly-OpenLLaMA & Falcon 大模型

数据集内容

本项目向社区提供以下内容：

中文对话模型 Linly-ChatFlow
中文基础模型 Chinese-LLaMA (1-2)、Chinese-Falcon
训练数据

模型性能指标

与APUS联合训练的Linly-70B模型性能指标如下：

指标	值
ARC	54.69
HellaSwag	76.94
MMLU	60.4
Truthful QA	53.54
Winogrande	73.4
GSM8K	34.12
C-Eval	80.6

模型训练

中文基础模型以 LLaMA 和 Falcon 为底座，使用中文和中英平行语料进行增量预训练。项目还汇总了多语言指令数据，对中文模型进行大规模指令跟随训练，实现了 Linly-ChatFlow 对话模型。

开源模型

项目开源了从头训练的 Linly-OpenLLaMA 模型，包含 3B、7B、13B 规模，在 1TB 中英文语料上进行预训练，以 Apache 2.0 协议公开。

项目内容

通过 Full-tuning 获得中文 LLaMA、Falcon 等模型，提供 TencentPretrain 与 HuggingFace 版本
模型细节公开可复现，提供数据准备、模型训练和模型评估完整流程代码
多种量化方案，支持 CUDA 和边缘设备部署推理

模型下载

Linly-Chinese-LLaMA-2: 使用 LLaMA2 扩充中文词表，在混合语料上进行增量预训练。
Linly-Chinese-Falcon: 在 Falcon 基础上扩充中文词表，在中英文数据上增量预训练。
Linly-Chinese-LLaMA: 基于 LLaMA 权重和词表，在中文数据上增量预训练。
Linly-OpenLLaMA: 在大规模中英文语料上从头训练词表和模型参数。

生成示例

展示 Linly-Chinese-LLaMA-2 模型效果，包括信息提取、代码生成和知识问答。

在线试用

在线 demo 可在 Linly-ChatFlow 体验。

模型使用

介绍 TencentPretrain 格式模型权重的使用方法，包括解码参数和详细使用说明。

模型训练细节

模型基于 TencentPretrain 预训练和指令精调，详细信息参见相关链接。

新闻

[2024/2/4] 发布与 APUS 联合训练的 Chinese-LLaMA-2 (70B) 模型。
[2023/7/22] 发布 Chinese-LLaMA-2 (7B、13B) 模型。
[2023/6/14] 发布中文 Falcon-7B 基础模型。
[2023/5/31] Linly-ChatFlow-7B 对话模型参与 SuperCLUE-琅琊榜排名。

搜集汇总

数据集介绍

构建方式

该指令微调数据集的构建基于中文基础模型，如LLaMA和Falcon，通过使用中文和中英平行语料进行增量预训练，将英文模型的语言能力扩展到中文。随后，项目汇总了公开的多语言指令数据，对中文模型进行了大规模的指令跟随训练，从而实现了Linly-ChatFlow对话模型。此外，数据集还包括从头训练的Linly-OpenLLaMA模型，该模型在1TB的中英文语料上进行预训练，并针对中文优化了字词结合的tokenizer。

特点

该数据集的特点在于其多语言指令数据的汇总和大规模指令跟随训练，使得模型能够在中文环境下进行高效的对话生成。此外，数据集提供了多种量化方案，支持CUDA和边缘设备的部署推理，确保了模型在不同硬件环境下的高效运行。Linly-OpenLLaMA模型的引入，进一步增强了数据集在中文处理上的优化能力，特别是在字词结合tokenizer上的改进，提升了模型的中文处理性能。

使用方法

用户可以通过HuggingFace或TencentPretrain格式下载预训练模型权重，并根据提供的转换脚本进行格式转换。使用时，用户可以参考项目提供的详细代码和文档，进行数据准备、模型训练和模型评估。此外，项目还提供了多种量化方案，支持在CUDA和边缘设备上的部署推理，用户可以根据实际需求选择合适的部署方式。对于模型的具体使用，项目提供了从单轮对话到多轮对话的示例代码，帮助用户快速上手。

背景与挑战

背景概述

指令微调数据集是由中国研究人员和机构开发的一个专注于中文大模型微调的数据集，旨在提升中文对话模型和基础模型的性能。该数据集基于LLaMA和Falcon等模型，通过中文和中英平行语料进行增量预训练，并结合大规模指令数据进行微调，形成了如Linly-ChatFlow等对话模型。项目始于2023年，由多个研究机构和公司如APUS联合开发，旨在将英文模型的语言能力扩展到中文领域，并对中文模型进行优化。该数据集的发布对中文自然语言处理领域具有重要意义，推动了中文大模型的发展和应用。

当前挑战

指令微调数据集面临的挑战主要包括：1) 数据集的构建需要处理大量的中文和中英平行语料，确保语料的质量和多样性，以提升模型的泛化能力；2) 在微调过程中，如何有效利用指令数据进行模型训练，以实现更精准的对话生成和任务执行；3) 模型的部署和推理效率问题，尤其是在边缘设备上的推理性能优化；4) 数据集的开放性和可复现性，确保研究者和开发者能够基于该数据集进行进一步的研究和应用。此外，如何在保持模型性能的同时，降低训练和推理的资源消耗也是一个重要的挑战。

常用场景

经典使用场景

指令微调数据集在自然语言处理领域中扮演着至关重要的角色，尤其是在大规模语言模型的训练与优化过程中。该数据集通过提供丰富的指令跟随数据，帮助模型更好地理解和执行用户指令，从而提升其在对话系统、问答系统以及代码生成等任务中的表现。经典的使用场景包括对中文LLaMA、Falcon等模型的指令微调，使其在中文语境下具备更强的语言理解和生成能力。

实际应用

指令微调数据集在实际应用中广泛用于构建智能对话系统、虚拟助手和自动问答系统。通过微调，模型能够更准确地响应用户指令，提供个性化的服务体验。例如，在客服机器人、智能家居控制和在线教育等领域，该数据集的应用显著提升了系统的交互能力和用户满意度。此外，它还支持代码生成和信息提取等任务，进一步拓展了其实际应用场景。

衍生相关工作

指令微调数据集的发布催生了一系列相关研究与应用。例如，基于该数据集的中文LLaMA和Falcon模型的微调工作，推动了中文自然语言处理技术的发展。此外，该数据集还为多语言模型的迁移学习提供了新的思路，促进了跨语言任务的研究。相关的经典工作包括Linly-ChatFlow对话模型的开发，以及在SuperCLUE-琅琊榜等评测中的优异表现，展示了其在实际应用中的潜力。

以上内容由遇见数据集搜集并总结生成