five

Synthetic Dataset Generator

收藏
github2024-10-20 更新2024-10-29 收录
下载链接:
https://github.com/ZacheryKuykendall/Synthetic-Data-Generator
下载链接
链接失效反馈
官方服务:
资源简介:
合成数据集生成器旨在创建模拟真实场景的合成数据集,适用于机器学习模型的训练数据生成、教育内容创建或金融、教育和基因组学等领域的新应用原型测试。通过利用Hugging Face的nvidia/Mistral-NeMo-Minitron-8B-Instruct模型,该脚本可以生成适合研究人员、教育者和机器学习爱好者的数据。

The synthetic dataset generator is designed to create synthetic datasets that simulate real-world scenarios, suitable for generating training data for machine learning models, creating educational content, or prototyping new applications in fields such as finance, education, and genomics. By leveraging the nvidia/Mistral-NeMo-Minitron-8B-Instruct model from Hugging Face, this script can generate data tailored for researchers, educators, and machine learning enthusiasts.
创建时间:
2024-10-20
原始信息汇总

Synthetic Dataset Generator 🚀📝

概述

该数据集生成器使用大型语言模型(LLM)生成合成数据,适用于教育、研究和多个领域,如生物信息学、金融、教育和基因组学。生成的数据可用于训练机器学习模型、创建教育内容或原型测试。

特点

  • 大型语言模型(LLM)集成:使用 nvidia/Mistral-NeMo-Minitron-8B-Instruct 模型生成高质量数据,适用于多个领域。
  • 梯度检查点:减少GPU内存使用,支持在有限硬件资源下使用更大模型。
  • 批处理:高效处理和写入数据集行到CSV文件,提高性能。
  • 环境变量定制:通过 .env 文件轻松定制模型参数和其他设置。
  • 可定制的提示模板:可定制提示模板以适应不同领域,如金融、教育和基因组学。
  • 多领域灵活性:支持生成多种领域的合成数据。
  • 命令行集成:通过命令行直接传递环境变量,方便快速测试和部署。
  • CPU卸载支持:在GPU资源有限时有效管理内存使用。
  • API调用重试机制:使用 backoff 库处理模型加载或数据生成中的临时错误。

环境变量

  • .env 文件:包含模型名称、缓存目录、生成行数和输出文件名等默认设置。
  • 命令行传递:支持通过命令行直接传递环境变量。

使用步骤

  1. 克隆仓库

    git clone https://github.com/ZacheryKuykendall/Synthetic-Data-Generator.git cd Synthetic-Data-Generator

  2. 设置虚拟环境

    • Linux:

      python -m venv venv source venv/bin/activate

    • Windows:

      python3 -m venv venv venv/Scripts/activate

  3. 安装依赖

    pip install -r requirements.txt

  4. 生成数据集

    python generate.py

输出

生成的数据集将保存为CSV文件,包含以下可定制列:

  • system_prompt:描述AI模型的角色和目的。
  • user_experience_level:用户的知识水平。
  • context:用户项目的上下文和特定需求。
  • user_prompt:用户的具体问题或请求。
  • completion:模型生成的响应。
  • customizable_columns:根据主题添加或修改列。

示例

  • 用户提示:"What are the key factors in financial risk assessment?"
  • 生成响应:"Key factors in financial risk assessment include market volatility, credit risk, liquidity, and regulatory compliance."
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过利用大型语言模型(LLM)生成合成数据,旨在模拟真实世界场景,适用于机器学习模型的训练、教育内容创建或原型测试。具体而言,该数据集生成器采用Hugging Face的**nvidia/Mistral-NeMo-Minitron-8B-Instruct**模型,通过高级文本生成技术,生成高质量、领域相关的数据。生成过程中,数据集构建工具实施了梯度检查点技术,以最小化GPU内存使用,并通过批处理方式高效地将数据写入CSV文件,从而优化了数据生成过程的性能和资源利用率。
特点
该数据集的主要特点包括:1) 集成大型语言模型,提供高质量、领域相关的文本生成;2) 实施梯度检查点技术,优化GPU内存使用;3) 支持批处理,提高数据生成效率;4) 通过环境变量文件和命令行参数,实现高度可定制化;5) 提供可定制的提示模板,适应不同领域的需求;6) 支持多领域数据生成,灵活适应金融、教育、基因组学等多个领域;7) 支持CPU卸载,适应硬件资源有限的场景;8) 集成重试机制,确保数据生成的可靠性。
使用方法
使用该数据集时,用户首先需克隆GitHub仓库并设置虚拟环境,安装相关依赖。随后,通过运行`python generate.py`命令,即可根据配置生成合成数据。用户可以通过`.env`文件或命令行参数自定义模型名称、缓存目录、生成行数及输出文件名等设置。生成的数据将以CSV格式保存,用户可根据具体需求添加、删除或重命名列。此外,用户可通过修改提示模板和上下文生成更符合特定领域需求的数据。
背景与挑战
背景概述
合成数据集生成器(Synthetic Dataset Generator)是由Zachery Kuykendall开发的一个Python脚本,旨在利用大型语言模型(LLM)生成适用于教育、研究和多领域应用的合成数据。该数据集生成器的主要目的是模拟真实世界场景,如为机器学习模型生成训练数据、创建教育内容或在新应用领域(如金融、教育和基因组学)中进行原型测试。通过集成Hugging Face的nvidia/Mistral-NeMo-Minitron-8B-Instruct模型,该工具能够生成高质量、领域相关的合成数据,适用于研究人员、教育工作者和机器学习爱好者。
当前挑战
合成数据集生成器在生成高质量、领域相关的合成数据方面面临多项挑战。首先,确保生成的数据在不同领域(如生物信息学、金融和教育)中具有高度的真实性和相关性是一个主要挑战。其次,在构建过程中,如何有效管理GPU内存使用、优化批处理和处理API调用中的临时错误也是关键问题。此外,用户定制化需求的多样性要求生成器具备高度的灵活性和适应性,以满足不同用户和项目的特定需求。
常用场景
经典使用场景
在教育与研究领域,合成数据生成器(Synthetic Dataset Generator)被广泛应用于创建模拟真实世界场景的数据集。这些数据集特别适用于训练机器学习模型、开发教育内容或进行原型测试。通过集成大型语言模型(LLM)如**nvidia/Mistral-NeMo-Minitron-8B-Instruct**,该工具能够生成高质量、领域特定的合成数据,适用于生物信息学、金融、教育等多个领域。
衍生相关工作
基于合成数据生成器,许多相关研究工作得以展开。例如,有研究者利用该工具生成的数据集进行金融模型的优化,显著提高了风险评估的精度;教育技术领域的研究者则开发了基于合成数据的自适应学习系统,提升了个性化教育的效率。此外,基因组学领域的研究者也利用该工具进行大规模数据模拟,推动了基因疗法的研发进程。
数据集最近研究
最新研究方向
在合成数据生成领域,最新的研究方向主要集中在利用大型语言模型(LLM)生成高质量、领域特定的合成数据。这些数据不仅用于机器学习模型的训练,还广泛应用于教育内容创建和原型测试。通过集成如**nvidia/Mistral-NeMo-Minitron-8B-Instruct**等先进模型,研究人员能够生成高度逼真的数据,适用于生物信息学、金融、教育等多个领域。此外,研究还关注于优化数据生成过程中的资源利用,如通过梯度检查点和CPU卸载技术,以适应不同硬件环境的需求。这些进展不仅提升了数据生成的效率和质量,也为跨领域的研究和应用提供了强有力的支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作