five

Belle

收藏
github2023-04-01 更新2025-01-13 收录
下载链接:
https://github.com/LianjiaTech/BELLE
下载链接
链接失效反馈
官方服务:
资源简介:
为了获得大量的指令微调数据,项目团队参考了斯坦福大学的Alpaca项目,并针对中文场景进行了优化,利用ChatGPT生了多样化、高质量的数据,这些数据涵盖了各种应用场景,包括日常对话、知识问答、文本生成等,有助于模型在各种中文场景中的表现。已经开源其中的150万数据。

To obtain a substantial amount of instruction fine-tuning data, the project team referenced Stanford University's Alpaca project and optimized it for Chinese scenarios. Utilizing ChatGPT, they generated diverse, high-quality data that covers various application scenarios, including daily conversations, knowledge Q&A, and text generation, which aids the model's performance across different Chinese contexts. A portion of 1.5 million data points has been open-sourced.
提供机构:
LianjiaTech
创建时间:
2023-04-01
原始信息汇总

BELLE 数据集概述

项目简介

BELLE(Be Everyones Large Language model Engine)是一个促进中文对话大模型开源社区发展的项目,旨在降低中文大语言模型的研究和应用门槛。项目持续开放指令训练数据、相关模型、训练代码和应用场景,并针对中文优化。

主要内容

训练代码

  • 支持finetune、lora训练方法
  • 集成Deepspeed-Chat
  • 提供相关docker环境

开放数据

  • 1.5M中文数据集(参考Stanford Alpaca生成)
  • 持续开放的10M规模数据集
  • 包含单轮/多轮对话数据、数学指令数据等

验证集合

  • 1k+测试集合
  • 多类别评估
  • 采用GPT-4/ChatGPT打分

模型资源

  • 基于LLaMA2调优的模型:BELLE-Llama2-13B-chat-0.4M
  • 基于LLaMA调优的多个7B/13B模型
  • 基于BLOOMZ-7B1-mt优化的多个模型
  • 中文强化语音识别模型(whisper系列)

应用工具

  • ChatBELLE App:跨平台离线大模型交互应用
  • 模型量化工具(gptq)
  • Colab推理代码

研究报告

  1. 中文指令遵循语言模型训练数据影响研究

    • 对比不同训练数据对模型表现的影响
    • 包含词表扩充、数据质量、语言分布等实验
  2. 全参数微调与LoRA的对比研究

    • 比较不同调优方法的性能差异
    • 分析训练成本与模型表现的平衡

使用限制

  • 可能产生事实性错误
  • 对危害性指令鉴别能力有限
  • 推理/代码等场景能力待提升
  • 仅限研究用途

引用方式

bibtex @misc{BELLE, author = {BELLEGroup}, title = {BELLE: Be Everyones Large Language model Engine}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/LianjiaTech/BELLE}}, }

联系方式

  • Discord群组
  • 微信公众号
搜集汇总
数据集介绍
main_image_url
构建方式
BELLE数据集的构建基于开源预训练大语言模型,特别是针对中文进行了优化。数据集的核心数据来源于ChatGPT生成的中文指令数据,确保了数据的多样性和高质量。项目团队通过扩展LLaMA的中文词表,并在大量中文语料上进行二次预训练,进一步提升了模型的中文处理能力。此外,BELLE还整合了多种开源数据集,并通过人工精校和自动化生成相结合的方式,持续扩充和优化数据集。
特点
BELLE数据集的特点在于其专注于中文指令数据的优化与扩展,提供了丰富的单轮和多轮对话数据。数据集不仅涵盖了多样化的指令任务,还特别强化了中文语境下的语言模型表现。BELLE还提供了多种模型调优方案,包括LoRA和全参数微调,支持不同场景下的模型训练需求。此外,数据集还包含了高质量的评估集,便于模型效果的量化分析与对比。
使用方法
BELLE数据集的使用方法灵活多样,用户可以通过Hugging Face平台直接下载数据集和预训练模型。项目提供了详细的训练代码和微调指南,支持用户基于Deepspeed-Chat框架进行模型训练与调优。对于开发者,BELLE还提供了跨平台的离线应用ChatBELLE,便于在本地设备上运行量化后的模型。用户还可以通过Colab快速体验模型的推理效果,并通过贡献数据或代码参与项目的持续优化。
背景与挑战
背景概述
BELLE(Be Everyone's Large Language model Engine)项目由LianjiaTech于2023年推出,旨在推动中文对话大模型的开源社区发展。该项目聚焦于在开源预训练大语言模型的基础上,通过指令微调和数据优化,降低中文大语言模型的研究和应用门槛。BELLE的核心研究问题是如何在有限的资源下,通过高质量的指令数据和多轮对话训练,提升模型的指令遵循能力和中文处理效果。该项目不仅开放了训练数据、模型和代码,还持续评估不同训练策略对模型性能的影响,为中文自然语言处理领域的研究和应用提供了重要支持。
当前挑战
BELLE项目面临的主要挑战包括:1) 在中文大语言模型的指令微调中,如何有效提升模型对复杂指令的理解和生成能力,特别是在多轮对话和推理任务中的表现;2) 构建高质量的指令数据集时,如何确保数据的多样性和代表性,避免模型在特定任务上的过拟合;3) 在模型量化过程中,如何在压缩模型大小的同时,尽量减少性能损失,特别是在端侧设备上的实时推理场景中。此外,BELLE还需应对模型在事实性错误、危害性指令识别等方面的局限性,确保模型的安全性和可靠性。
常用场景
经典使用场景
BELLE数据集在中文大语言模型的研究与开发中扮演了重要角色,尤其是在指令微调和模型优化方面。通过提供高质量的指令训练数据,BELLE帮助研究者在开源预训练模型的基础上,进一步优化模型的中文指令表现能力。该数据集广泛应用于模型训练、评估和微调,特别是在中文语境下的多轮对话、情感分析、文本生成等任务中,展现了其独特的优势。
衍生相关工作
BELLE数据集衍生了许多经典的研究工作,如基于LoRA的指令微调技术、多模态大语言模型的开发以及中文语音识别模型的优化。这些工作不仅推动了中文大语言模型的研究进展,还为开源社区提供了丰富的资源和工具。例如,BELLE-Llama2-13B-chat模型在中文对话任务中的表现显著提升,成为中文大语言模型研究的重要参考。此外,BELLE还通过技术报告和开源代码,促进了中文大语言模型领域的知识共享与技术进步。
数据集最近研究
最新研究方向
近年来,BELLE数据集在中文大语言模型领域的研究方向主要集中在指令微调、多模态扩展以及语音识别模型的优化上。通过引入高质量的垂直领域数据,BELLE在增强模型垂直领域能力的同时,有效抵抗了通用能力的坍缩。此外,BELLE还推出了多模态大语言模型BELLE-VL,显著提升了中文语境下的视觉理解能力。在语音识别方面,BELLE通过优化Whisper模型,显著提升了中文语音识别的精度和速度,特别是在高噪、混响等复杂场景下表现突出。这些研究不仅推动了中文大语言模型的开源社区发展,也为实际应用场景提供了更加灵活和高效的解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作