five

Vezora/Puffin-Alpaca

收藏
Hugging Face2023-08-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Vezora/Puffin-Alpaca
下载链接
链接失效反馈
官方服务:
资源简介:
Puffin数据集由超过2000个GPT-4与真实人类之间的多轮对话组成,平均每个对话的上下文长度超过1000个token,平均每个对话的轮次超过10次。数据集还包括了手动筛选的CamelAI/Physics、CamelAI/Math、CamelAI/Biology和CamelAI/Chemistry子集,所有响应均由GPT-4生成。数据集经过严格清理,去除了明显的AI道德化行为,并仅保留了GPT-4的示例。该数据集特别适用于训练LORA适配器,以帮助模型更准确地模拟GPT-4的输出。

The Puffin dataset comprises over 2000 multi-turn dialogues between GPT-4 and real humans, with each dialogue averaging over 1000 tokens of context length and more than 10 turns. The dataset also includes manually filtered subsets of CamelAI/Physics, CamelAI/Math, CamelAI/Biology and CamelAI/Chemistry, where all responses are generated by GPT-4. The dataset has undergone rigorous cleaning to eliminate obvious AI moralizing behaviors and only retains GPT-4-generated examples. This dataset is particularly well-suited for training LoRA adapters to help models more accurately simulate GPT-4's output.
提供机构:
Vezora
原始信息汇总

Puffin 数据集概述

数据集特点

  • 数据集由 GPT-4 与真实人类之间的多轮对话组成。
  • 包含超过 2,000 个多轮对话。
  • 平均每个对话的上下文长度超过 1,000 个令牌。
  • 平均每个对话的轮数超过 10 轮。
  • 数据集中的对话经过精心筛选,排除了 AI 道德化或相关行为的内容。
  • 数据集严格筛选自 ShareGPT 数据集中的 GPT-4 示例。

数据集格式

  • 数据集已转换为 Alpaca 格式,输入部分为空白。
  • 每个问题不超过 2048 个令牌。

训练建议

  • 推荐使用批量大小为 4-10,截断长度为 ≤ 2048 以避免 VRAM 问题。
  • 使用 4 位加载、标准浮点数和 bf16 格式。

LORA 用户建议

  • 可针对以下模块使用 LORA:"gate_proj", "down_proj", "up_proj", "q_proj", "v_proj", "k_proj", "o_proj"。
  • 大多数 LORA 模型使用:"q_proj", "v_proj", "k_proj", "o_proj"。
  • Platypus 使用:"gate_proj", "down_proj", "up_proj"。

超参数

  • Platypus 使用的超参数:
    • 批量大小:16
    • 微批量大小:1
    • 训练周期数:1
    • 学习率:4e-4 / 3e-4
    • 截断长度:4096
    • LORA 秩:16
    • LORA 阿尔法:16
    • LORA 丢弃率:0.05
    • LORA 目标模块:"gate_proj", "down_proj", "up_proj"
    • 训练输入:False
    • 添加 EOS 令牌:False
    • 按长度分组:False
    • 提示模板:alpaca
    • 学习率调度器:cosine
    • 预热步数:100

未来计划

  • 计划利用领域专家志愿者的帮助,消除训练数据中的数学/可验证错误答案。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作