Synthetic Dataset Generator

github2024-10-20 更新2024-10-29 收录

下载链接：

https://github.com/ZacheryKuykendall/Synthetic-Data-Generator

下载链接

链接失效反馈

官方服务：

资源简介：

合成数据集生成器旨在创建模拟真实场景的合成数据集，适用于机器学习模型的训练数据生成、教育内容创建或金融、教育和基因组学等领域的新应用原型测试。通过利用Hugging Face的nvidia/Mistral-NeMo-Minitron-8B-Instruct模型，该脚本可以生成适合研究人员、教育者和机器学习爱好者的数据。

The synthetic dataset generator is designed to create synthetic datasets that simulate real-world scenarios, suitable for generating training data for machine learning models, creating educational content, or prototyping new applications in fields such as finance, education, and genomics. By leveraging the nvidia/Mistral-NeMo-Minitron-8B-Instruct model from Hugging Face, this script can generate data tailored for researchers, educators, and machine learning enthusiasts.

创建时间：

2024-10-20

原始信息汇总

Synthetic Dataset Generator 🚀📝

概述

该数据集生成器使用大型语言模型（LLM）生成合成数据，适用于教育、研究和多个领域，如生物信息学、金融、教育和基因组学。生成的数据可用于训练机器学习模型、创建教育内容或原型测试。

特点

大型语言模型（LLM）集成：使用 nvidia/Mistral-NeMo-Minitron-8B-Instruct 模型生成高质量数据，适用于多个领域。
梯度检查点：减少GPU内存使用，支持在有限硬件资源下使用更大模型。
批处理：高效处理和写入数据集行到CSV文件，提高性能。
环境变量定制：通过 .env 文件轻松定制模型参数和其他设置。
可定制的提示模板：可定制提示模板以适应不同领域，如金融、教育和基因组学。
多领域灵活性：支持生成多种领域的合成数据。
命令行集成：通过命令行直接传递环境变量，方便快速测试和部署。
CPU卸载支持：在GPU资源有限时有效管理内存使用。
API调用重试机制：使用 backoff 库处理模型加载或数据生成中的临时错误。

环境变量

.env 文件：包含模型名称、缓存目录、生成行数和输出文件名等默认设置。
命令行传递：支持通过命令行直接传递环境变量。

使用步骤

克隆仓库：

git clone https://github.com/ZacheryKuykendall/Synthetic-Data-Generator.git cd Synthetic-Data-Generator
设置虚拟环境：
- Linux:
  
  python -m venv venv source venv/bin/activate
- Windows:
  
  python3 -m venv venv venv/Scripts/activate
安装依赖：

pip install -r requirements.txt
生成数据集：

python generate.py

输出

生成的数据集将保存为CSV文件，包含以下可定制列：

system_prompt：描述AI模型的角色和目的。
user_experience_level：用户的知识水平。
context：用户项目的上下文和特定需求。
user_prompt：用户的具体问题或请求。
completion：模型生成的响应。
customizable_columns：根据主题添加或修改列。

示例

用户提示："What are the key factors in financial risk assessment?"
生成响应："Key factors in financial risk assessment include market volatility, credit risk, liquidity, and regulatory compliance."

搜集汇总

数据集介绍

构建方式

该数据集通过利用大型语言模型（LLM）生成合成数据，旨在模拟真实世界场景，适用于机器学习模型的训练、教育内容创建或原型测试。具体而言，该数据集生成器采用Hugging Face的**nvidia/Mistral-NeMo-Minitron-8B-Instruct**模型，通过高级文本生成技术，生成高质量、领域相关的数据。生成过程中，数据集构建工具实施了梯度检查点技术，以最小化GPU内存使用，并通过批处理方式高效地将数据写入CSV文件，从而优化了数据生成过程的性能和资源利用率。

特点

该数据集的主要特点包括：1) 集成大型语言模型，提供高质量、领域相关的文本生成；2) 实施梯度检查点技术，优化GPU内存使用；3) 支持批处理，提高数据生成效率；4) 通过环境变量文件和命令行参数，实现高度可定制化；5) 提供可定制的提示模板，适应不同领域的需求；6) 支持多领域数据生成，灵活适应金融、教育、基因组学等多个领域；7) 支持CPU卸载，适应硬件资源有限的场景；8) 集成重试机制，确保数据生成的可靠性。

使用方法

使用该数据集时，用户首先需克隆GitHub仓库并设置虚拟环境，安装相关依赖。随后，通过运行`python generate.py`命令，即可根据配置生成合成数据。用户可以通过`.env`文件或命令行参数自定义模型名称、缓存目录、生成行数及输出文件名等设置。生成的数据将以CSV格式保存，用户可根据具体需求添加、删除或重命名列。此外，用户可通过修改提示模板和上下文生成更符合特定领域需求的数据。

背景与挑战

背景概述

合成数据集生成器（Synthetic Dataset Generator）是由Zachery Kuykendall开发的一个Python脚本，旨在利用大型语言模型（LLM）生成适用于教育、研究和多领域应用的合成数据。该数据集生成器的主要目的是模拟真实世界场景，如为机器学习模型生成训练数据、创建教育内容或在新应用领域（如金融、教育和基因组学）中进行原型测试。通过集成Hugging Face的nvidia/Mistral-NeMo-Minitron-8B-Instruct模型，该工具能够生成高质量、领域相关的合成数据，适用于研究人员、教育工作者和机器学习爱好者。

当前挑战

合成数据集生成器在生成高质量、领域相关的合成数据方面面临多项挑战。首先，确保生成的数据在不同领域（如生物信息学、金融和教育）中具有高度的真实性和相关性是一个主要挑战。其次，在构建过程中，如何有效管理GPU内存使用、优化批处理和处理API调用中的临时错误也是关键问题。此外，用户定制化需求的多样性要求生成器具备高度的灵活性和适应性，以满足不同用户和项目的特定需求。

常用场景

经典使用场景

在教育与研究领域，合成数据生成器（Synthetic Dataset Generator）被广泛应用于创建模拟真实世界场景的数据集。这些数据集特别适用于训练机器学习模型、开发教育内容或进行原型测试。通过集成大型语言模型（LLM）如**nvidia/Mistral-NeMo-Minitron-8B-Instruct**，该工具能够生成高质量、领域特定的合成数据，适用于生物信息学、金融、教育等多个领域。

衍生相关工作

基于合成数据生成器，许多相关研究工作得以展开。例如，有研究者利用该工具生成的数据集进行金融模型的优化，显著提高了风险评估的精度；教育技术领域的研究者则开发了基于合成数据的自适应学习系统，提升了个性化教育的效率。此外，基因组学领域的研究者也利用该工具进行大规模数据模拟，推动了基因疗法的研发进程。

数据集最近研究