zhiqings/dromedary-65b-verbose-clone-v0

Name: zhiqings/dromedary-65b-verbose-clone-v0
Creator: zhiqings
Published: 2023-06-23 22:52:56
License: 暂无描述

Hugging Face2023-06-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/zhiqings/dromedary-65b-verbose-clone-v0

下载链接

链接失效反馈

官方服务：

资源简介：

Dromedary-Verbose-Clone是一个包含36万条指令和演示的合成数据集，主要用于指令训练预训练语言模型。数据通过Self-Instruct框架生成，并经过质量过滤以确保数据质量。数据集为英文，适用于对话任务。

提供机构：

zhiqings

原始信息汇总

名称: Dromedary-Verbose-Clone

语言: 英语（BCP-47 en）

大小: 100K<n<1M

许可: Creative Commons NonCommercial (CC BY-NC 4.0)

类型: 合成数据集，包含360k条指令和演示。

生成方法:

指令生成: 使用LLaMA模型结合Self-Instruct框架生成，采用Topic-Guided Red-Teaming (TGRT) Self-Instruct确保多样化主题覆盖。
演示生成: 使用非详细版本的Dromedary模型，通过特定提示生成详细、全面的响应。

质量过滤: 通过一系列规则过滤合成演示，包括保留列表前12项、移除少于128字符的响应、消除重复句子。

数据实例:

字段: example_id, instruction, input, output
示例: json { "example_id": 1, "instruction": "Write a haiku about good news.", "input": "", "output": "Here is a haiku about good news:

Good news is always

welcome, especially when

it is unexpected.

}

数据分割:

支持任务: 用于训练预训练语言模型的指令。

注意事项: 建议在监督微调（SFT）时，不附加<eos>或</s>标记，而是替换为自定义的结束响应标记。

5,000+

优质数据集

54 个

任务类型

进入经典数据集