polymer/dolphin-only-gpt-4
收藏Hugging Face2023-09-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/polymer/dolphin-only-gpt-4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在复现Microsofts Orca的研究结果,包含两部分数据:一部分是约100万条FLANv2数据,通过GPT-4进行增强;另一部分是约350万条FLANv2数据,通过GPT-3.5进行增强。数据集遵循了Orca论文中的子混合和系统提示分布,但做了一些调整,如包含了所有75k的CoT数据,并去除了重复项。此外,数据集过滤了对齐、拒绝、回避和偏见的内容,以生成一个未经过滤的模型,可以在其上添加个性化的对齐LoRA。数据集计划在多个模型上发布,包括Xgen 7b 8k、LLaMA 13b(非商业用途)、MPT 30b 8k、LLaMA 33b(非商业用途)、Falcon 40b和LLaMA 65b(非商业用途)。
提供机构:
polymer
原始信息汇总
数据集详情
数据集概述
该数据集旨在复现Microsofts Orca的结果。
数据组成
- 约100万条FLANv2数据,通过GPT-4补全增强(flan1m-alpaca-uncensored.jsonl)
- 约350万条FLANv2数据,通过GPT-3.5补全增强(flan5m-alpaca-uncensored.jsonl)
数据处理
- 遵循Orca论文中的子混合和系统提示分布
- 包含所有75k条CoT数据在FLAN-1m数据集中,而非采样
- 去除重复项,最终在ChatGPT数据集中保留350万条指令
- 过滤掉对齐、拒绝、回避和偏见实例,以生成未经审查的模型
加载数据
python
加载GPT-4补全数据
dataset = load_dataset("ehartford/dolphin", data_files="flan1m-alpaca-uncensored.jsonl")
加载GPT-3.5补全数据
dataset = load_dataset("ehartford/dolphin", data_files="flan5m-alpaca-uncensored.jsonl")
许可证
该数据集采用apache-2.0许可证,适用于商业和非商业用途。
计划发布
计划在以下模型上发布Dolphin:
- Xgen 7b 8k
- LLaMA 13b(非商业)
- MPT 30b 8k
- LLaMA 33b(非商业)
- Falcon 40b
- LLaMA 65b(非商业)
Dolphin模型的发布将受限于其训练的基础模型的许可证(LLaMA模型为非商业用途)。



