xzuyn/tulu-uncensored-alpaca
收藏Hugging Face2023-08-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/xzuyn/tulu-uncensored-alpaca
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含348,020个条目,来源于`open-instruct-uncensored.jsonl`文件,并使用了多个子集,包括Flan V2、CoT、Dolly、OASST1、GPT4-Alpaca、Code-Alpaca和ShareGPT。数据集已从jsonl格式转换为json格式,以便于加载到类似LLaMa-LoRA-Tuner的工具中。具体子集的条目数量如下:code_alpaca: 19991, oasst1: 49433, flan_v2: 97519, sharegpt: 46733, dolly: 14624, cot: 73946, gpt4_alpaca: 45774。
该数据集包含348,020个条目,来源于`open-instruct-uncensored.jsonl`文件,并使用了多个子集,包括Flan V2、CoT、Dolly、OASST1、GPT4-Alpaca、Code-Alpaca和ShareGPT。数据集已从jsonl格式转换为json格式,以便于加载到类似LLaMa-LoRA-Tuner的工具中。具体子集的条目数量如下:code_alpaca: 19991, oasst1: 49433, flan_v2: 97519, sharegpt: 46733, dolly: 14624, cot: 73946, gpt4_alpaca: 45774。
提供机构:
xzuyn
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 标签: allenai, tulu, ehartford, alpaca
- 大小: 100K<n<1M
数据来源
- 原始数据集:
open-instruct-uncensored.jsonl - 数据子集:
- Flan V2
- CoT
- Dolly
- OASST1
- GPT4-Alpaca
- Code-Alpaca
- ShareGPT
数据统计
- 总条目数: 348,020
- 各子集条目数:
- code_alpaca: 19,991
- oasst1: 49,433
- flan_v2: 97,519
- sharegpt: 46,733
- dolly: 14,624
- cot: 73,946
- gpt4_alpaca: 45,774
数据处理
- 格式转换: 从jsonl转换为json,适用于LLaMa-LoRA-Tuner等工具。



