Vezora/Puffin-Alpaca
收藏Hugging Face2023-08-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Vezora/Puffin-Alpaca
下载链接
链接失效反馈官方服务:
资源简介:
Puffin数据集由超过2000个GPT-4与真实人类之间的多轮对话组成,平均每个对话的上下文长度超过1000个token,平均每个对话的轮次超过10次。数据集还包括了手动筛选的CamelAI/Physics、CamelAI/Math、CamelAI/Biology和CamelAI/Chemistry子集,所有响应均由GPT-4生成。数据集经过严格清理,去除了明显的AI道德化行为,并仅保留了GPT-4的示例。该数据集特别适用于训练LORA适配器,以帮助模型更准确地模拟GPT-4的输出。
The Puffin dataset comprises over 2000 multi-turn dialogues between GPT-4 and real humans, with each dialogue averaging over 1000 tokens of context length and more than 10 turns. The dataset also includes manually filtered subsets of CamelAI/Physics, CamelAI/Math, CamelAI/Biology and CamelAI/Chemistry, where all responses are generated by GPT-4. The dataset has undergone rigorous cleaning to eliminate obvious AI moralizing behaviors and only retains GPT-4-generated examples. This dataset is particularly well-suited for training LoRA adapters to help models more accurately simulate GPT-4's output.
提供机构:
Vezora
原始信息汇总
Puffin 数据集概述
数据集特点
- 数据集由 GPT-4 与真实人类之间的多轮对话组成。
- 包含超过 2,000 个多轮对话。
- 平均每个对话的上下文长度超过 1,000 个令牌。
- 平均每个对话的轮数超过 10 轮。
- 数据集中的对话经过精心筛选,排除了 AI 道德化或相关行为的内容。
- 数据集严格筛选自 ShareGPT 数据集中的 GPT-4 示例。
数据集格式
- 数据集已转换为 Alpaca 格式,输入部分为空白。
- 每个问题不超过 2048 个令牌。
训练建议
- 推荐使用批量大小为 4-10,截断长度为 ≤ 2048 以避免 VRAM 问题。
- 使用 4 位加载、标准浮点数和 bf16 格式。
LORA 用户建议
- 可针对以下模块使用 LORA:"gate_proj", "down_proj", "up_proj", "q_proj", "v_proj", "k_proj", "o_proj"。
- 大多数 LORA 模型使用:"q_proj", "v_proj", "k_proj", "o_proj"。
- Platypus 使用:"gate_proj", "down_proj", "up_proj"。
超参数
- Platypus 使用的超参数:
- 批量大小:16
- 微批量大小:1
- 训练周期数:1
- 学习率:4e-4 / 3e-4
- 截断长度:4096
- LORA 秩:16
- LORA 阿尔法:16
- LORA 丢弃率:0.05
- LORA 目标模块:"gate_proj", "down_proj", "up_proj"
- 训练输入:False
- 添加 EOS 令牌:False
- 按长度分组:False
- 提示模板:alpaca
- 学习率调度器:cosine
- 预热步数:100
未来计划
- 计划利用领域专家志愿者的帮助,消除训练数据中的数学/可验证错误答案。



