polymer/dolphin-only-gpt-4

Name: polymer/dolphin-only-gpt-4
Creator: polymer
Published: 2023-09-06 05:10:58
License: 暂无描述

Hugging Face2023-09-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/polymer/dolphin-only-gpt-4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在复现Microsofts Orca的研究结果，包含两部分数据：一部分是约100万条FLANv2数据，通过GPT-4进行增强；另一部分是约350万条FLANv2数据，通过GPT-3.5进行增强。数据集遵循了Orca论文中的子混合和系统提示分布，但做了一些调整，如包含了所有75k的CoT数据，并去除了重复项。此外，数据集过滤了对齐、拒绝、回避和偏见的内容，以生成一个未经过滤的模型，可以在其上添加个性化的对齐LoRA。数据集计划在多个模型上发布，包括Xgen 7b 8k、LLaMA 13b（非商业用途）、MPT 30b 8k、LLaMA 33b（非商业用途）、Falcon 40b和LLaMA 65b（非商业用途）。

提供机构：

polymer

原始信息汇总

数据集详情

数据集概述

该数据集旨在复现Microsofts Orca的结果。

数据组成

约100万条FLANv2数据，通过GPT-4补全增强（flan1m-alpaca-uncensored.jsonl）
约350万条FLANv2数据，通过GPT-3.5补全增强（flan5m-alpaca-uncensored.jsonl）

数据处理

遵循Orca论文中的子混合和系统提示分布
包含所有75k条CoT数据在FLAN-1m数据集中，而非采样
去除重复项，最终在ChatGPT数据集中保留350万条指令
过滤掉对齐、拒绝、回避和偏见实例，以生成未经审查的模型

加载数据

python

加载GPT-4补全数据

dataset = load_dataset("ehartford/dolphin", data_files="flan1m-alpaca-uncensored.jsonl")

加载GPT-3.5补全数据

dataset = load_dataset("ehartford/dolphin", data_files="flan5m-alpaca-uncensored.jsonl")

许可证

该数据集采用apache-2.0许可证，适用于商业和非商业用途。

计划发布

计划在以下模型上发布Dolphin：

Xgen 7b 8k
LLaMA 13b（非商业）
MPT 30b 8k
LLaMA 33b（非商业）
Falcon 40b
LLaMA 65b（非商业）

Dolphin模型的发布将受限于其训练的基础模型的许可证（LLaMA模型为非商业用途）。

5,000+

优质数据集

54 个

任务类型

进入经典数据集