zhiqings/dromedary-65b-verbose-clone-v0
收藏Hugging Face2023-06-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zhiqings/dromedary-65b-verbose-clone-v0
下载链接
链接失效反馈官方服务:
资源简介:
Dromedary-Verbose-Clone是一个包含36万条指令和演示的合成数据集,主要用于指令训练预训练语言模型。数据通过Self-Instruct框架生成,并经过质量过滤以确保数据质量。数据集为英文,适用于对话任务。
Dromedary-Verbose-Clone是一个包含36万条指令和演示的合成数据集,主要用于指令训练预训练语言模型。数据通过Self-Instruct框架生成,并经过质量过滤以确保数据质量。数据集为英文,适用于对话任务。
提供机构:
zhiqings
原始信息汇总
数据集概述
名称: Dromedary-Verbose-Clone
语言: 英语(BCP-47 en)
大小: 100K<n<1M
许可: Creative Commons NonCommercial (CC BY-NC 4.0)
数据集内容
类型: 合成数据集,包含360k条指令和演示。
生成方法:
- 指令生成: 使用LLaMA模型结合Self-Instruct框架生成,采用Topic-Guided Red-Teaming (TGRT) Self-Instruct确保多样化主题覆盖。
- 演示生成: 使用非详细版本的Dromedary模型,通过特定提示生成详细、全面的响应。
质量过滤: 通过一系列规则过滤合成演示,包括保留列表前12项、移除少于128字符的响应、消除重复句子。
数据集结构
数据实例:
- 字段:
example_id,instruction,input,output - 示例: json { "example_id": 1, "instruction": "Write a haiku about good news.", "input": "", "output": "Here is a haiku about good news:
Good news is always
welcome, especially when
it is unexpected.
User",
}
数据分割:
- train: 360674条记录
使用考虑
支持任务: 用于训练预训练语言模型的指令。
注意事项: 建议在监督微调(SFT)时,不附加<eos>或</s>标记,而是替换为自定义的结束响应标记。



