Belle

Name: Belle
Creator: LianjiaTech
Published: 2023-04-01 18:56:59
License: 暂无描述

github2023-04-01 更新2025-01-13 收录

下载链接：

https://github.com/LianjiaTech/BELLE

下载链接

链接失效反馈

官方服务：

资源简介：

为了获得大量的指令微调数据，项目团队参考了斯坦福大学的Alpaca项目，并针对中文场景进行了优化，利用ChatGPT生了多样化、高质量的数据，这些数据涵盖了各种应用场景，包括日常对话、知识问答、文本生成等，有助于模型在各种中文场景中的表现。已经开源其中的150万数据。

To obtain a substantial amount of instruction fine-tuning data, the project team referenced Stanford University's Alpaca project and optimized it for Chinese scenarios. Utilizing ChatGPT, they generated diverse, high-quality data that covers various application scenarios, including daily conversations, knowledge Q&A, and text generation, which aids the model's performance across different Chinese contexts. A portion of 1.5 million data points has been open-sourced.

提供机构：

LianjiaTech

创建时间：

2023-04-01

原始信息汇总

BELLE 数据集概述

项目简介

BELLE（Be Everyones Large Language model Engine）是一个促进中文对话大模型开源社区发展的项目，旨在降低中文大语言模型的研究和应用门槛。项目持续开放指令训练数据、相关模型、训练代码和应用场景，并针对中文优化。

主要内容

训练代码

支持finetune、lora训练方法
集成Deepspeed-Chat
提供相关docker环境

开放数据

1.5M中文数据集（参考Stanford Alpaca生成）
持续开放的10M规模数据集
包含单轮/多轮对话数据、数学指令数据等

验证集合

1k+测试集合
多类别评估
采用GPT-4/ChatGPT打分

模型资源

基于LLaMA2调优的模型：BELLE-Llama2-13B-chat-0.4M
基于LLaMA调优的多个7B/13B模型
基于BLOOMZ-7B1-mt优化的多个模型
中文强化语音识别模型（whisper系列）

应用工具

ChatBELLE App：跨平台离线大模型交互应用
模型量化工具（gptq）
Colab推理代码

研究报告

中文指令遵循语言模型训练数据影响研究
- 对比不同训练数据对模型表现的影响
- 包含词表扩充、数据质量、语言分布等实验
全参数微调与LoRA的对比研究
- 比较不同调优方法的性能差异
- 分析训练成本与模型表现的平衡

使用限制

可能产生事实性错误
对危害性指令鉴别能力有限
推理/代码等场景能力待提升
仅限研究用途

引用方式

bibtex @misc{BELLE, author = {BELLEGroup}, title = {BELLE: Be Everyones Large Language model Engine}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/LianjiaTech/BELLE}}, }

联系方式

Discord群组
微信公众号

搜集汇总

数据集介绍

构建方式

BELLE数据集的构建基于开源预训练大语言模型，特别是针对中文进行了优化。数据集的核心数据来源于ChatGPT生成的中文指令数据，确保了数据的多样性和高质量。项目团队通过扩展LLaMA的中文词表，并在大量中文语料上进行二次预训练，进一步提升了模型的中文处理能力。此外，BELLE还整合了多种开源数据集，并通过人工精校和自动化生成相结合的方式，持续扩充和优化数据集。

特点

BELLE数据集的特点在于其专注于中文指令数据的优化与扩展，提供了丰富的单轮和多轮对话数据。数据集不仅涵盖了多样化的指令任务，还特别强化了中文语境下的语言模型表现。BELLE还提供了多种模型调优方案，包括LoRA和全参数微调，支持不同场景下的模型训练需求。此外，数据集还包含了高质量的评估集，便于模型效果的量化分析与对比。

使用方法

BELLE数据集的使用方法灵活多样，用户可以通过Hugging Face平台直接下载数据集和预训练模型。项目提供了详细的训练代码和微调指南，支持用户基于Deepspeed-Chat框架进行模型训练与调优。对于开发者，BELLE还提供了跨平台的离线应用ChatBELLE，便于在本地设备上运行量化后的模型。用户还可以通过Colab快速体验模型的推理效果，并通过贡献数据或代码参与项目的持续优化。

背景与挑战

背景概述

BELLE（Be Everyone's Large Language model Engine）项目由LianjiaTech于2023年推出，旨在推动中文对话大模型的开源社区发展。该项目聚焦于在开源预训练大语言模型的基础上，通过指令微调和数据优化，降低中文大语言模型的研究和应用门槛。BELLE的核心研究问题是如何在有限的资源下，通过高质量的指令数据和多轮对话训练，提升模型的指令遵循能力和中文处理效果。该项目不仅开放了训练数据、模型和代码，还持续评估不同训练策略对模型性能的影响，为中文自然语言处理领域的研究和应用提供了重要支持。

当前挑战

BELLE项目面临的主要挑战包括：1) 在中文大语言模型的指令微调中，如何有效提升模型对复杂指令的理解和生成能力，特别是在多轮对话和推理任务中的表现；2) 构建高质量的指令数据集时，如何确保数据的多样性和代表性，避免模型在特定任务上的过拟合；3) 在模型量化过程中，如何在压缩模型大小的同时，尽量减少性能损失，特别是在端侧设备上的实时推理场景中。此外，BELLE还需应对模型在事实性错误、危害性指令识别等方面的局限性，确保模型的安全性和可靠性。

常用场景

经典使用场景

BELLE数据集在中文大语言模型的研究与开发中扮演了重要角色，尤其是在指令微调和模型优化方面。通过提供高质量的指令训练数据，BELLE帮助研究者在开源预训练模型的基础上，进一步优化模型的中文指令表现能力。该数据集广泛应用于模型训练、评估和微调，特别是在中文语境下的多轮对话、情感分析、文本生成等任务中，展现了其独特的优势。

衍生相关工作

BELLE数据集衍生了许多经典的研究工作，如基于LoRA的指令微调技术、多模态大语言模型的开发以及中文语音识别模型的优化。这些工作不仅推动了中文大语言模型的研究进展，还为开源社区提供了丰富的资源和工具。例如，BELLE-Llama2-13B-chat模型在中文对话任务中的表现显著提升，成为中文大语言模型研究的重要参考。此外，BELLE还通过技术报告和开源代码，促进了中文大语言模型领域的知识共享与技术进步。

数据集最近研究