five

zhengxuanzenwu/dolly-self-instr-oasst1-OIG-sharegpt-dolly_format

收藏
Hugging Face2023-07-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zhengxuanzenwu/dolly-self-instr-oasst1-OIG-sharegpt-dolly_format
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为dolly-self-instr-oasst1-OIG-sharegpt-dolly_format,旨在进行较少依赖上下文的调整,专注于开放性。数据集结合了多个HF数据集,并应用了过滤条件,包括Dolly(仅保留无上下文的条目,不包括封闭问答、总结、提取)、Self-instruct(仅保留人类创建的条目)、oasst1、OIG的3个子集(用于Koala)和sharegpt(仅保留指令在空格分割后超过10个词的条目)。

该数据集名为dolly-self-instr-oasst1-OIG-sharegpt-dolly_format,旨在进行较少依赖上下文的调整,专注于开放性。数据集结合了多个HF数据集,并应用了过滤条件,包括Dolly(仅保留无上下文的条目,不包括封闭问答、总结、提取)、Self-instruct(仅保留人类创建的条目)、oasst1、OIG的3个子集(用于Koala)和sharegpt(仅保留指令在空格分割后超过10个词的条目)。
提供机构:
zhengxuanzenwu
原始信息汇总

数据集概述

数据集名称

"dolly-self-instr-oasst1-OIG-sharegpt-dolly_format"

数据集特征

  • instruction (字符串类型)
  • context (字符串类型)
  • response (字符串类型)
  • category (字符串类型)

数据集分割

  • 训练集:包含257307个样本,总大小为405052984.34317416字节。
  • 验证集:包含2500个样本,总大小为3935502.9628340285字节。

数据集大小

  • 下载大小:235552617字节
  • 数据集总大小:408988487.30600816字节

许可证

apache-2.0

任务类别

  • 文本生成

语言

  • 英语

大小类别

  • 100K<n<1M
二维码
社区交流群
二维码
科研交流群
商业服务