Local Custom LLM Project QA Dataset

github2024-07-02 更新2024-07-03 收录

下载链接：

https://github.com/RNRaku/Local-Custom-LLM-Project

下载链接

链接失效反馈

官方服务：

资源简介：

该项目旨在创建一个针对特定问答数据集定制的大型语言模型（LLM）。数据集包括问题和答案对，用于训练和部署本地运行的自定义LLM。

This project aims to develop a large language model (LLM) customized for a designated question-answering dataset. The dataset comprises question-answer pairs, which are utilized for training and deploying the custom locally-running LLM.

创建时间：

2024-07-02

原始信息汇总

本地自定义LLM项目

概述

该项目旨在创建一个定制的大型语言模型（LLM），适用于特定的问题-答案数据集。项目包括数据预处理、训练和部署步骤。

文件结构

VinBot/
├── docs/ │ ├── QA.txt ├── data/ │ ├── Question-1 │ ├── Answer-1 │ └── ... ├── Jsonls/ │ ├── answers.jsonl │ ├── queries.jsonl │ ├── instruction.jsonl ├── notebooks/ │ ├── training_notebook.ipynb ├── scripts/ │ ├── init.py │ ├── create_QA.py │ ├── combine_QA.py ├── lora_model/ │ ├── adapter_config.json │ ├── special_tokens_map.json │ ├── tokenizer.json │ ├── tokenizer_config.json │ ├── tokenizer.model │ ├── adapter_model.safetensors │ ├── README.md ├── LICENSE ├── README.md ├── requirements.txt └── main.py

使用步骤

1. 数据预处理

添加问题和答案
- 创建任意主题的问题-答案对。
- 建议至少几千对以避免过拟合。
- 将问题和答案放入docs文件夹中的文档。
确保正确格式
- 格式如下：
  - 问题以Q:或Question:开头，后跟问题文本。
  - 答案以A:或Answer:开头，后跟答案文本。
将Word文档转换为TXT文件
- 将Word文档保存为.txt文件，放入docs文件夹。
运行create_QA脚本
- 执行create_QA脚本提取问题和答案，输出存储在data文件夹中，文件名为Question-{NUMBER}和Answer-{NUMBER}。
运行combine_QA脚本
- 执行combine_QA脚本将问题和答案标记化并合并为.jsonl文件，输出存储在Jsonls文件夹中。

2. 训练

运行笔记本
- 确保指令、问题和答案在正确目录中。
- 打开并运行提供的Jupyter笔记本进行训练。
调整训练参数
- 根据需要调整以下参数：
  - epochs
  - adaptors
  - r
  - alpha
  - dropout
  - test-train
  - warmup
  - decay
  - 等
保存训练模型
- 将训练好的模型保存到lora_model文件夹中以供部署。

3. 部署

加载和合并模型
- 从lora_model加载训练好的模型并将其与基础模型合并。
部署前端
- 使用Streamlit或其他框架部署前端代码以与模型交互。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程始于用户自定义的问答对创建，这些问答对涵盖了用户感兴趣的特定主题。用户需将问答对以特定格式（如以'Q:'或'Question:'开头的问题，以及以'A:'或'Answer:'开头的答案）保存于Word文档中，随后转换为.txt文件并存放于'docs'文件夹。通过执行'create_QA'脚本，系统自动提取并存储问答对至'data'文件夹，并以'Question-{NUMBER}'和'Answer-{NUMBER}'命名。接着，'combine_QA'脚本将这些问答对进一步处理，生成.jsonl格式的文件，存储于'Jsonls'文件夹，为后续的模型训练做好准备。

使用方法

使用该数据集时，用户首先需进行数据预处理，包括创建和格式化问答对，并执行相关脚本生成.jsonl文件。随后，用户可通过提供的Jupyter笔记本进行模型训练，调整训练参数以优化模型性能。训练完成后，用户可将模型保存并部署，利用Streamlit等框架构建前端界面，实现与模型的交互。此外，用户可根据需要调整脚本和参数，以适应不同的数据集和应用场景。

背景与挑战

背景概述

Local Custom LLM Project QA Dataset 是由特定研究团队开发的一个定制化大型语言模型（LLM）项目，旨在针对特定的问题-答案数据集进行优化。该项目的主要研究人员或机构未明确提及，但其核心研究问题在于如何通过定制化的LLM模型，提升特定领域内的问答准确性和效率。该数据集的创建时间未明确，但从其详细的文档和代码结构来看，该项目已经历了一定的开发和测试阶段。其对相关领域的影响力在于，它提供了一种灵活且可扩展的方法，不仅限于问答任务，还可应用于故事摘要和语言翻译等多种任务，从而推动了LLM在多任务处理中的应用研究。

当前挑战

Local Custom LLM Project QA Dataset 在构建过程中面临多项挑战。首先，数据集的构建需要大量的问答对，以避免模型过拟合，这要求数据收集和标注的高效性和准确性。其次，数据预处理步骤复杂，包括格式化文档、转换为文本文件、提取和组合问答对等，这些步骤需要精确的脚本支持和用户操作。此外，模型的训练和部署对硬件要求较高，特别是对GPU和VRAM的需求，这限制了部分研究者的参与。最后，模型的定制化和参数调整需要深入的专业知识，以确保模型在特定任务中的表现达到预期。

常用场景

经典使用场景

Local Custom LLM Project QA Dataset 的经典使用场景在于为特定领域的问题回答任务定制化大型语言模型（LLM）。通过该数据集，研究者和开发者能够构建和训练针对特定知识库或专业领域的问答系统，从而实现高效且精准的信息检索与回答。此数据集不仅支持问答对的形式，还可扩展至故事摘要和语言翻译等多样化任务，极大地丰富了其应用范围。

解决学术问题

该数据集解决了在特定领域内构建高效问答系统的学术研究问题。传统的通用LLM在处理专业领域问题时往往表现不佳，而Local Custom LLM Project QA Dataset通过提供定制化的训练数据，使得模型能够更好地理解和回答特定领域的问题。这不仅提升了问答系统的准确性和效率，还为相关领域的研究提供了新的工具和方法。

实际应用

在实际应用中，Local Custom LLM Project QA Dataset 可广泛应用于教育、医疗、法律等专业领域。例如，在教育领域，该数据集可用于构建智能辅导系统，帮助学生快速获取专业知识；在医疗领域，可用于开发智能诊断助手，提供精准的医疗建议。此外，该数据集还可应用于企业内部的知识管理系统，提升信息检索和问题解决的效率。

数据集最近研究