zhengxuanzenwu/dolly-self-instr-oasst1-OIG-sharegpt-dolly_format
收藏Hugging Face2023-07-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zhengxuanzenwu/dolly-self-instr-oasst1-OIG-sharegpt-dolly_format
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为dolly-self-instr-oasst1-OIG-sharegpt-dolly_format,旨在进行较少依赖上下文的调整,专注于开放性。数据集结合了多个HF数据集,并应用了过滤条件,包括Dolly(仅保留无上下文的条目,不包括封闭问答、总结、提取)、Self-instruct(仅保留人类创建的条目)、oasst1、OIG的3个子集(用于Koala)和sharegpt(仅保留指令在空格分割后超过10个词的条目)。
该数据集名为dolly-self-instr-oasst1-OIG-sharegpt-dolly_format,旨在进行较少依赖上下文的调整,专注于开放性。数据集结合了多个HF数据集,并应用了过滤条件,包括Dolly(仅保留无上下文的条目,不包括封闭问答、总结、提取)、Self-instruct(仅保留人类创建的条目)、oasst1、OIG的3个子集(用于Koala)和sharegpt(仅保留指令在空格分割后超过10个词的条目)。
提供机构:
zhengxuanzenwu
原始信息汇总
数据集概述
数据集名称
"dolly-self-instr-oasst1-OIG-sharegpt-dolly_format"
数据集特征
- instruction (字符串类型)
- context (字符串类型)
- response (字符串类型)
- category (字符串类型)
数据集分割
- 训练集:包含257307个样本,总大小为405052984.34317416字节。
- 验证集:包含2500个样本,总大小为3935502.9628340285字节。
数据集大小
- 下载大小:235552617字节
- 数据集总大小:408988487.30600816字节
许可证
apache-2.0
任务类别
- 文本生成
语言
- 英语
大小类别
- 100K<n<1M



