大语言模型高质量训练数据集

github2024-04-25 更新2024-05-31 收录

下载链接：

https://github.com/zjrwtx/VideoQA_databuilder

下载链接

链接失效反馈

官方服务：

资源简介：

基于youtube、bilibili等视频平台和零一万物大模型构建的大语言模型高质量训练数据集，用于生成和微调大模型问答训练数据。

A high-quality training dataset for large language models, constructed based on video platforms such as YouTube and Bilibili, along with the Zero-One-Vast model, is utilized for generating and fine-tuning training data for large model question-answering systems.

创建时间：

2024-04-25

原始信息汇总

数据集概述

数据集描述

本数据集旨在基于youtube、bilibili等视频平台及webpage网页，利用零一万物大模型或ollama本地小模型构建大语言模型的高质量训练数据集。该数据集计划支持可自定义输出的训练数据格式。

更新日志

2024-5-2：新增对webpage网页的question生成支持，通过Yi模型或ollama的本地小模型对输入的webpage网页地址的内容合成高质量的questions数据供微调数据合成使用。
2024-4-29：新增对bilibili视频的question生成支持，基于bilibili视频构建大模型问答训练数据，输入bilibili视频地址等信息即可生成questions数据供videoQA_databuilder项目使用。

使用过程

使用youtubquestion_builder.py生成指定视频的questions文件，本项目读取questions文件后，基于零一万物模型生成基于视频内容的回答并自我调整，最后将回答保存到answers.json文件。

运行指南

克隆项目到本地：git clone https://github.com/zjrwtx/AIgene_anki.git
安装依赖：pip install -r requirements.txt
复制.env.example文件为.env并填写大模型的环境变量
运行python main.py，如无报错即可看到可视化程序
使用youtubquestion_builder.py生成指定视频的questions文件
在可视化程序上读取questions文件，填写必要内容，利用零一万物大模型生成对应数据answers

许可证

本项目遵循GPL许可证，欢迎贡献代码或提出改进建议。项目地址：https://github.com/zjrwtx/VideoQA_databuilder

非商业用途：本项目的所有源代码和相关文档仅限于非商业用途。任何商业用途均被严格禁止。

搜集汇总

数据集介绍

构建方式

该数据集的构建方式依托于从YouTube、bilibili等视频平台以及网页中提取内容，通过零一万物大模型或ollama本地小模型生成高质量的问答数据。具体而言，项目通过输入视频或网页地址，利用模型对内容进行解析，生成相应的questions数据，进而为大语言模型的训练提供丰富的微调数据。此过程不仅支持视频内容的问答生成，还扩展至网页内容的question生成，确保数据来源的多样性与广泛性。

使用方法

使用该数据集时，用户首先需克隆项目到本地，并安装相关依赖。随后，通过运行指定的Python脚本生成questions文件，并利用零一万物大模型对这些问题进行回答，最终将结果保存为answers.json文件。整个过程支持可视化操作，用户可在可视化界面中读取questions文件并生成对应的数据。此外，数据集支持自定义输出格式，满足不同训练需求。

背景与挑战

背景概述

大语言模型高质量训练数据集是由零一万物团队主导开发，旨在通过整合YouTube、Bilibili等视频平台以及网页内容，构建适用于大语言模型训练的高质量数据集。该数据集的核心研究问题在于如何从多样化的多媒体内容中提取有效信息，并生成高质量的问答数据，以支持大语言模型的微调与优化。自2024年4月起，该项目逐步增加了对Bilibili视频和网页内容的问答生成支持，展示了其在多模态数据处理方面的前沿探索。该数据集的构建不仅推动了自然语言处理领域的发展，也为大语言模型的实际应用提供了坚实的基础。

当前挑战

该数据集在构建过程中面临多项挑战。首先，从视频和网页等多模态数据中提取高质量的问答数据需要解决信息提取和语义理解的难题。其次，如何确保生成的问答数据具有多样性和代表性，以避免模型训练中的偏差，也是一个重要的挑战。此外，数据集的构建还需考虑数据隐私和版权问题，确保在非商业用途的前提下，合法合规地使用和分发数据。最后，支持自定义输出格式的需求增加了数据集构建的技术复杂性，要求开发者在数据处理和格式转换方面具备高度的灵活性和适应性。

常用场景

经典使用场景

大语言模型高质量训练数据集的经典使用场景主要体现在通过从YouTube、Bilibili等视频平台以及网页中提取内容，生成高质量的问答数据。这些数据可用于微调大语言模型，使其在处理视频内容或网页信息时能够生成更为精准和自然的回答。具体而言，用户可以通过输入视频或网页地址，利用零一万物模型或本地小模型生成相应的问答对，从而为模型的进一步训练提供丰富的语料支持。

解决学术问题

该数据集解决了大语言模型在训练过程中面临的数据多样性和质量问题。通过从多源平台提取内容并生成高质量的问答数据，该数据集有效提升了模型的泛化能力和语义理解能力。这对于推动自然语言处理领域的研究具有重要意义，尤其是在视频内容理解和网页信息提取方面，为学术界提供了新的研究方向和实验数据。

实际应用

在实际应用中，该数据集可广泛用于智能客服、教育辅助、内容推荐等领域。例如，在智能客服系统中，通过使用该数据集训练的模型能够更准确地理解用户提出的问题，并提供相应的解答。在教育领域，该数据集可用于生成与教学视频相关的问答内容，帮助学生更好地理解和掌握课程知识。此外，在内容推荐系统中，该数据集也可用于提升推荐算法的准确性和用户满意度。

数据集最近研究