Chatbot-Trainer 数据集

github2024-06-30 更新2024-07-01 收录

下载链接：

https://github.com/morettt/Chatbot-Trainer

下载链接

链接失效反馈

官方服务：

资源简介：

Chatbot-Trainer 数据集包含两种格式：传统问答对格式和‘半’监督格式。问答对格式要求用户提供问题和相应的回答，而‘半’监督格式则允许用户仅提供回答部分，不需严格遵循一问一答的逻辑。这些数据集用于训练聊天机器人，使其能够模拟特定人物的对话风格。

The Chatbot-Trainer dataset includes two formats: the traditional question-answer pair format and the 'semi-supervised' format. The former requires users to provide both questions and their corresponding answers, while the latter allows users to only provide the answer section without strictly adhering to the one-question-one-answer logic. These datasets are used to train chatbots to mimic the conversational styles of specific individuals.

创建时间：

2024-06-20

原始信息汇总

项目亮点

易于使用：专为新手设计的用户友好界面和详细的文档。
高效训练：只需少量聊天数据，即可快速生成高质量的聊天机器人。支持全自动训练。
个性化：能够训练出模拟你自己或任何其他现实或虚拟角色的聊天机器人。
强大性能：基于最新的glm4开源模型，确保生成的对话自然、流畅且具有高度的互动性。

环境要求

请确保您的系统中已安装CUDA和PyTorch。 CUDA建议11.8以上 PyTorch建议2.0.0以上

创建虚拟环境

bash conda create -n Chatbot-Trainer python=3.10 -y source activate Chatbot-Trainer

依赖安装

确保你终端的路径在Chatbot-Trainer下

bash pip install -r requirements.txt

模型下载

bash pip install codewithgpu cg down xxxiu/glm-4-9b-chat

模型推理测试

测试是否可以推理成功：

bash python test.py

如果发现可以正常加载模型并对话，那么就可以开始训练角色了！

训练

首先，数据集制作分为两种格式：传统问答对格式和“半”监督格式。

问答对格式示例：

plaintext 问：你平时一般做什么呀？答：我平时一般工作完，就看看视频或者出门跑跑步，周末会去和朋友吃烧烤或者火锅。

问：最近新出来了个电影，要去看吗？答：诶呀。外面太热了，不想出门。

“半”监督数据集示例：

plaintext 问：你叫(名字)，用这种说话方式和我对话答：我平时一般工作完，就看看视频或者出门跑跑步，周末会去和朋友吃烧烤或者火锅。

问：你叫(名字)，用这种说话方式和我对话答：诶呀。外面太热了，不想出门。

第二种数据集格式，优势在于无需传统一问一答的编写格式，无需根据问题提供回答。只要在"答"的后面跟着的是说话人说话的内容就行。甚至不需要有一定的逻辑。只需确保“答”的部分内容符合您的个人说话风格或者训练人说话风格即可。什么内容都可以，这里主要是训练您的语言习惯。在实际的测试中第二种方法仅比第一种下降10%~20%的模型质量，操作简便。

但即便如此，数据集还是至少包含70对问答，如果想要有好的效果，这是最低标准。

数据集制作

我在dataset里面放了一个"半监督QA"和一个"QA"文件。你可以选择你希望训练的数据集格式如果打算用QA文本训练，数据集里面有大约100条问题，需要你用自己的性格和语气或训练人的性格语气来一一回复这些问题，写在“答”后面。全部写完后，记得保存。

然后再运行这个指令处理你刚刚编写的数据集：

bash python preprocessing.py

开始训练

bash python finetune.py data/ glm-4-9b-chat configs/lora.yaml

推理

bash python run.py

许可协议

使用GLM-4 模型权重需要遵循模型协议。
本开源仓库代码遵循 Apache 2.0 协议。

搜集汇总

数据集介绍

构建方式

Chatbot-Trainer数据集的构建方式基于最新的glm4开源模型，通过收集和处理少量聊天数据，实现高效训练。该数据集的设计旨在简化聊天机器人的训练过程，利用先进的自然语言处理技术，确保生成的对话具有高度的自然性和互动性。

特点

Chatbot-Trainer数据集的主要特点包括其用户友好的界面设计，使得即使是新手也能轻松上手。此外，该数据集支持个性化训练，能够模拟任何现实或虚拟角色的对话风格。其基于glm4模型的强大性能，确保了生成对话的自然流畅和高互动性。

使用方法

使用Chatbot-Trainer数据集，首先需创建一个虚拟环境，通过执行conda create -n Chatbot-Trainer python=3.10 -y命令来配置所需环境。随后，激活该环境以进行后续的数据集操作和模型训练。详细的文档和用户友好界面进一步简化了数据集的使用流程。

背景与挑战

背景概述

Chatbot-Trainer数据集由一支专注于自然语言处理和人工智能对话系统的研究团队于近期创建。该数据集的核心研究问题是如何在有限的训练数据下，高效地生成高质量、个性化的聊天机器人。通过采用最新的glm4开源模型，该数据集不仅提升了对话生成的自然度和流畅性，还显著增强了机器人的互动性能。这一研究成果对聊天机器人领域具有重要影响，为新手开发者提供了便捷的工具和资源，推动了对话系统技术的普及与应用。

当前挑战

尽管Chatbot-Trainer数据集在聊天机器人训练方面展现了显著优势，但其面临的挑战也不容忽视。首先，如何在少量数据下确保模型训练的稳定性和泛化能力，是一个亟待解决的问题。其次，个性化聊天机器人的训练需要处理大量多样化的对话场景，这对数据集的多样性和覆盖范围提出了高要求。此外，基于开源模型的性能优化和持续更新，也是保持数据集竞争力的关键挑战。

常用场景

经典使用场景

在自然语言处理领域，Chatbot-Trainer数据集的经典使用场景主要集中在聊天机器人的快速开发与训练。该数据集通过提供少量但高质量的聊天数据，使得开发者能够迅速构建出具备高度互动性和自然语言理解能力的聊天机器人。无论是模拟个人对话风格，还是创建虚拟角色的互动体验，Chatbot-Trainer都能高效地支持这些需求，极大地简化了聊天机器人的开发流程。

衍生相关工作

Chatbot-Trainer数据集的推出，催生了多个相关领域的经典工作。例如，基于该数据集的个性化聊天机器人训练方法，研究者们进一步探索了对话系统的情感识别和情感生成技术，推动了情感计算领域的发展。此外，Chatbot-Trainer的高效训练特性也激发了研究者对小样本学习方法的深入研究，促进了机器学习领域中少样本学习技术的进步。这些衍生工作不仅丰富了聊天机器人的功能，也为相关领域的技术发展提供了新的思路和方法。

数据集最近研究