five

polymer/dolphin-only-gpt-4

收藏
Hugging Face2023-09-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/polymer/dolphin-only-gpt-4
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在复现Microsofts Orca的研究结果,包含两部分数据:一部分是约100万条FLANv2数据,通过GPT-4进行增强;另一部分是约350万条FLANv2数据,通过GPT-3.5进行增强。数据集遵循了Orca论文中的子混合和系统提示分布,但做了一些调整,如包含了所有75k的CoT数据,并去除了重复项。此外,数据集过滤了对齐、拒绝、回避和偏见的内容,以生成一个未经过滤的模型,可以在其上添加个性化的对齐LoRA。数据集计划在多个模型上发布,包括Xgen 7b 8k、LLaMA 13b(非商业用途)、MPT 30b 8k、LLaMA 33b(非商业用途)、Falcon 40b和LLaMA 65b(非商业用途)。
提供机构:
polymer
原始信息汇总

数据集详情

数据集概述

该数据集旨在复现Microsofts Orca的结果。

数据组成

  • 约100万条FLANv2数据,通过GPT-4补全增强(flan1m-alpaca-uncensored.jsonl)
  • 约350万条FLANv2数据,通过GPT-3.5补全增强(flan5m-alpaca-uncensored.jsonl)

数据处理

  • 遵循Orca论文中的子混合和系统提示分布
  • 包含所有75k条CoT数据在FLAN-1m数据集中,而非采样
  • 去除重复项,最终在ChatGPT数据集中保留350万条指令
  • 过滤掉对齐、拒绝、回避和偏见实例,以生成未经审查的模型

加载数据

python

加载GPT-4补全数据

dataset = load_dataset("ehartford/dolphin", data_files="flan1m-alpaca-uncensored.jsonl")

加载GPT-3.5补全数据

dataset = load_dataset("ehartford/dolphin", data_files="flan5m-alpaca-uncensored.jsonl")

许可证

该数据集采用apache-2.0许可证,适用于商业和非商业用途。

计划发布

计划在以下模型上发布Dolphin:

  • Xgen 7b 8k
  • LLaMA 13b(非商业)
  • MPT 30b 8k
  • LLaMA 33b(非商业)
  • Falcon 40b
  • LLaMA 65b(非商业)

Dolphin模型的发布将受限于其训练的基础模型的许可证(LLaMA模型为非商业用途)。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作