捕获月球大模型合成数据平台

github2024-11-22 更新2024-11-23 收录

下载链接：

https://github.com/zjrwtx/SFT-data-builder

下载链接

链接失效反馈

官方服务：

资源简介：

致力于打造低成本的人人都懂用的多模态合成数据解决方案，助力各类大模型的预训练、微调、gpto1(cot)、function calling等训练场景。

Targeting the development of a low-cost, user-friendly multimodal synthetic data solution accessible to all users, this dataset supports diverse training scenarios for large language models (LLMs), including pre-training, fine-tuning, GPT-o1 (Chain-of-Thought, CoT), and function calling.

创建时间：

2024-11-06

原始信息汇总

捕获月球大模型合成数据平台

概述

捕获月球大模型合成数据平台致力于打造低成本的人人都懂用的多模态合成数据解决方案，助力各类大模型的预训练、微调、gpto1(cot)、function calling等训练场景。

特性

一键生成训练数据：支持众多openai格式调用的本地或云端模型（包括GLM-4-Flash等免费调用模型），将普通文本秒变高质量AI训练数据，支持直接从微信公众号文章等链接内容生成训练数据。
合成gpto1类的cot数据合成功能，且可同步上传至huggingface。
批量生成：一次生成多条不同角度的训练数据，支持批量url文章自动生成批量数据。
灵活编辑：所有生成的数据都可以随时编辑和调整。
本地存储：自动保存所有数据到本地。
上传合成数据到huggingface平台：填好accesstoken和仓库等信息后，一键上传合成好的数据到huggingface平台存储或分享给他人。
导出简单：一键导出标准格式JSON文件。
优雅界面：简洁直观的用户界面，操作便捷。
多模型支持：支持多种主流AI模型，可自定义模型。
多格式支持：支持PDF、Word、TXT等多种文件格式。
主流训练格式互换：增加了 Alpaca训练格式与Openai训练格式互换功能，支持批量文件互换格式。

更新动态

v1.1.3 (2024-11-22)

增加了合成gpto1类的cot数据合成功能，且可同步上传至huggingface。

v1.1.2 (2024-11-20)

增加了上传合成数据到huggingface平台：填好accesstoken和仓库等信息后，一键上传合成好的数据到huggingface平台存储或分享给他人。

v1.1.1 (2024-11-12)

增加了 Alpaca训练格式与Openai训练格式互换功能，支持批量文件互换格式。

v1.1.0 (2024-11-09)

新增支持批量url文章自动生成批量数据。
优化了数据生成的速度。
优化界面。

快速开始

安装依赖

bash npm install

启动项目

bash npm run start

使用指南

配置API
- 点击"打开配置"按钮。
- 设置API地址和密钥。
- 选择或自定义AI模型。
- 设置每次生成的数据条数。
输入内容
- 上传文件（支持PDF、DOCX、TXT）。
- 或直接输入文本内容。
生成数据
- 点击"生成AI响应"按钮。
- 在多个生成结果中切换。
- 根据需要编辑生成的内容。
管理数据
- 添加到数据列表。
- 预览所有生成的数据。
- 删除不需要的数据。
- 导出为JSON文件。

训练数据格式

json { "instruction": "用户指令", "input": "用户输入（可选）", "output": "AI回答", "system": "系统提示词（可选）", "history": [ ["历史问题1", "历史回答1"], ["历史问题2", "历史回答2"] ] }

技术栈

React 18
TailwindCSS
PDF.js
Mammoth.js
LocalStorage API

待办功能

支持更多文件格式
添加数据验证功能
批量导入功能
数据标签系统
导出更多格式

贡献指南

Fork 本仓库。
创建特性分支 (git checkout -b feature/AmazingFeature)。
提交改动 (git commit -m Add some AmazingFeature)。
推送到分支 (git push origin feature/AmazingFeature)。
提交 Pull Request。

许可证

本项目采用 MIT 许可证。

作者

微信公众号：正经人王同学
微信: whatisallineed
GitHub: https://github.com/zjrwtx
Email: 3038880699@qq.com

致谢

特别感谢以下开源项目和贡献者：

LaiWei魏来 - 提供算法指导等支持
所有提供反馈和建议的用户

搜集汇总

数据集介绍

构建方式

捕获月球大模型合成数据平台通过集成多种先进的AI模型和数据处理技术，构建了一个高效、灵活的数据生成系统。该平台支持从多种来源（如微信公众号文章、PDF、Word、TXT等）提取内容，并利用一键生成功能将普通文本转化为高质量的AI训练数据。此外，平台还具备批量生成和灵活编辑功能，确保数据生成的多样性和准确性。通过本地存储和自动保存机制，用户可以随时管理和调整生成的数据，极大地提升了数据处理的效率和便捷性。

特点

该数据集平台具有多项显著特点。首先，其支持一键生成训练数据，能够快速将普通文本转化为高质量的AI训练数据，适用于多种训练场景。其次，平台提供了灵活的编辑功能，用户可以对生成的数据进行实时调整和优化。此外，平台支持多模型和多格式文件的处理，包括PDF、Word、TXT等，满足了不同用户的需求。最后，平台还具备数据上传至Huggingface平台的功能，方便用户进行数据存储和分享。

使用方法

使用捕获月球大模型合成数据平台，用户首先需配置API，设置API地址和密钥，并选择或自定义AI模型。随后，用户可以通过上传文件或直接输入文本来输入内容。点击“生成AI响应”按钮后，系统将生成多个结果供用户选择和编辑。用户可以管理生成的数据，包括添加到数据列表、预览、删除和导出为JSON文件。此外，平台还支持将合成数据一键上传至Huggingface平台，便于数据存储和分享。

背景与挑战

背景概述

捕获月球大模型合成数据平台是由正经人王同学主导开发的一个创新性项目，旨在为各类大模型的预训练、微调、gpto1(cot)、function calling等训练场景提供低成本、高效的多模态合成数据解决方案。该平台自创建以来，已吸引了广泛关注，其核心研究问题是如何在保证数据质量的前提下，降低数据生成的成本，从而推动人工智能技术的普及和应用。通过提供一键生成训练数据、灵活编辑、本地存储及上传至huggingface平台等功能，该平台显著提升了数据处理的便捷性和效率，对人工智能领域的研究和应用具有重要影响。

当前挑战

尽管捕获月球大模型合成数据平台在多模态数据生成方面取得了显著进展，但仍面临若干挑战。首先，数据生成的质量和多样性是关键问题，如何在保证数据质量的同时，生成多样化的训练数据，以适应不同模型的需求，是一个亟待解决的难题。其次，数据隐私和安全问题也不容忽视，特别是在数据上传至云端平台时，如何确保数据的安全性和用户的隐私保护，是平台需要重点考虑的问题。此外，平台的扩展性和兼容性也是一个挑战，随着技术的不断发展，平台需要不断更新和优化，以支持更多文件格式和主流训练格式的互换，从而满足日益增长的用户需求。

常用场景

经典使用场景

捕获月球大模型合成数据平台在多模态合成数据生成领域展现出其独特的应用价值。其经典使用场景包括为各类大模型的预训练、微调、GPT-1（CoT）及Function Calling等训练场景提供高质量的合成数据。通过一键生成训练数据的功能，用户能够快速将普通文本转化为适合AI训练的高质量数据，极大地简化了数据准备过程。

实际应用

在实际应用中，捕获月球大模型合成数据平台广泛应用于AI模型的训练和优化。例如，在自然语言处理领域，它可以用于生成大规模的对话数据，以训练对话系统；在计算机视觉领域，它可以生成合成图像数据，用于图像识别模型的训练。此外，通过支持数据上传至Hugging Face平台，该数据集还促进了数据的共享和协作，加速了AI技术的应用和推广。

衍生相关工作

捕获月球大模型合成数据平台的推出，催生了多项相关研究和工作。例如，基于该数据集，研究者们开发了多种多模态数据合成算法，进一步提升了数据生成的质量和多样性。同时，该数据集也激发了在数据生成效率和质量评估方面的研究，推动了数据合成技术的不断进步。此外，其支持的多种训练格式互换功能，也为跨领域的数据应用提供了新的可能性。

以上内容由遇见数据集搜集并总结生成