Vezora/Puffin-Alpaca

Name: Vezora/Puffin-Alpaca
Creator: Vezora
Published: 2023-08-14 04:48:27
License: 暂无描述

Hugging Face2023-08-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Vezora/Puffin-Alpaca

下载链接

链接失效反馈

官方服务：

资源简介：

Puffin数据集由超过2000个GPT-4与真实人类之间的多轮对话组成，平均每个对话的上下文长度超过1000个token，平均每个对话的轮次超过10次。数据集还包括了手动筛选的CamelAI/Physics、CamelAI/Math、CamelAI/Biology和CamelAI/Chemistry子集，所有响应均由GPT-4生成。数据集经过严格清理，去除了明显的AI道德化行为，并仅保留了GPT-4的示例。该数据集特别适用于训练LORA适配器，以帮助模型更准确地模拟GPT-4的输出。

The Puffin dataset comprises over 2000 multi-turn dialogues between GPT-4 and real humans, with each dialogue averaging over 1000 tokens of context length and more than 10 turns. The dataset also includes manually filtered subsets of CamelAI/Physics, CamelAI/Math, CamelAI/Biology and CamelAI/Chemistry, where all responses are generated by GPT-4. The dataset has undergone rigorous cleaning to eliminate obvious AI moralizing behaviors and only retains GPT-4-generated examples. This dataset is particularly well-suited for training LoRA adapters to help models more accurately simulate GPT-4's output.

提供机构：

Vezora

原始信息汇总

Puffin 数据集概述

数据集特点

数据集由 GPT-4 与真实人类之间的多轮对话组成。
包含超过 2,000 个多轮对话。
平均每个对话的上下文长度超过 1,000 个令牌。
平均每个对话的轮数超过 10 轮。
数据集中的对话经过精心筛选，排除了 AI 道德化或相关行为的内容。
数据集严格筛选自 ShareGPT 数据集中的 GPT-4 示例。

数据集格式

数据集已转换为 Alpaca 格式，输入部分为空白。
每个问题不超过 2048 个令牌。

训练建议

推荐使用批量大小为 4-10，截断长度为 ≤ 2048 以避免 VRAM 问题。
使用 4 位加载、标准浮点数和 bf16 格式。

LORA 用户建议

可针对以下模块使用 LORA："gate_proj", "down_proj", "up_proj", "q_proj", "v_proj", "k_proj", "o_proj"。
大多数 LORA 模型使用："q_proj", "v_proj", "k_proj", "o_proj"。
Platypus 使用："gate_proj", "down_proj", "up_proj"。

超参数

Platypus 使用的超参数：
- 批量大小：16
- 微批量大小：1
- 训练周期数：1
- 学习率：4e-4 / 3e-4
- 截断长度：4096
- LORA 秩：16
- LORA 阿尔法：16
- LORA 丢弃率：0.05
- LORA 目标模块："gate_proj", "down_proj", "up_proj"
- 训练输入：False
- 添加 EOS 令牌：False
- 按长度分组：False
- 提示模板：alpaca
- 学习率调度器：cosine
- 预热步数：100

未来计划

计划利用领域专家志愿者的帮助，消除训练数据中的数学/可验证错误答案。

5,000+

优质数据集

54 个

任务类型

进入经典数据集