five

zhiqings/dromedary-65b-verbose-clone-v0

收藏
Hugging Face2023-06-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zhiqings/dromedary-65b-verbose-clone-v0
下载链接
链接失效反馈
官方服务:
资源简介:
Dromedary-Verbose-Clone是一个包含36万条指令和演示的合成数据集,主要用于指令训练预训练语言模型。数据通过Self-Instruct框架生成,并经过质量过滤以确保数据质量。数据集为英文,适用于对话任务。

Dromedary-Verbose-Clone是一个包含36万条指令和演示的合成数据集,主要用于指令训练预训练语言模型。数据通过Self-Instruct框架生成,并经过质量过滤以确保数据质量。数据集为英文,适用于对话任务。
提供机构:
zhiqings
原始信息汇总

数据集概述

名称: Dromedary-Verbose-Clone

语言: 英语(BCP-47 en)

大小: 100K<n<1M

许可: Creative Commons NonCommercial (CC BY-NC 4.0)

数据集内容

类型: 合成数据集,包含360k条指令和演示。

生成方法:

  • 指令生成: 使用LLaMA模型结合Self-Instruct框架生成,采用Topic-Guided Red-Teaming (TGRT) Self-Instruct确保多样化主题覆盖。
  • 演示生成: 使用非详细版本的Dromedary模型,通过特定提示生成详细、全面的响应。

质量过滤: 通过一系列规则过滤合成演示,包括保留列表前12项、移除少于128字符的响应、消除重复句子。

数据集结构

数据实例:

  • 字段: example_id, instruction, input, output
  • 示例: json { "example_id": 1, "instruction": "Write a haiku about good news.", "input": "", "output": "Here is a haiku about good news:

Good news is always

welcome, especially when

it is unexpected.

User",

}

数据分割:

  • train: 360674条记录

使用考虑

支持任务: 用于训练预训练语言模型的指令。

注意事项: 建议在监督微调(SFT)时,不附加<eos></s>标记,而是替换为自定义的结束响应标记。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作