five

xzuyn/tulu-uncensored-alpaca

收藏
Hugging Face2023-08-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/xzuyn/tulu-uncensored-alpaca
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含348,020个条目,来源于`open-instruct-uncensored.jsonl`文件,并使用了多个子集,包括Flan V2、CoT、Dolly、OASST1、GPT4-Alpaca、Code-Alpaca和ShareGPT。数据集已从jsonl格式转换为json格式,以便于加载到类似LLaMa-LoRA-Tuner的工具中。具体子集的条目数量如下:code_alpaca: 19991, oasst1: 49433, flan_v2: 97519, sharegpt: 46733, dolly: 14624, cot: 73946, gpt4_alpaca: 45774。

该数据集包含348,020个条目,来源于`open-instruct-uncensored.jsonl`文件,并使用了多个子集,包括Flan V2、CoT、Dolly、OASST1、GPT4-Alpaca、Code-Alpaca和ShareGPT。数据集已从jsonl格式转换为json格式,以便于加载到类似LLaMa-LoRA-Tuner的工具中。具体子集的条目数量如下:code_alpaca: 19991, oasst1: 49433, flan_v2: 97519, sharegpt: 46733, dolly: 14624, cot: 73946, gpt4_alpaca: 45774。
提供机构:
xzuyn
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 标签: allenai, tulu, ehartford, alpaca
  • 大小: 100K<n<1M

数据来源

  • 原始数据集: open-instruct-uncensored.jsonl
  • 数据子集:
    1. Flan V2
    2. CoT
    3. Dolly
    4. OASST1
    5. GPT4-Alpaca
    6. Code-Alpaca
    7. ShareGPT

数据统计

  • 总条目数: 348,020
  • 各子集条目数:
    • code_alpaca: 19,991
    • oasst1: 49,433
    • flan_v2: 97,519
    • sharegpt: 46,733
    • dolly: 14,624
    • cot: 73,946
    • gpt4_alpaca: 45,774

数据处理

  • 格式转换: 从jsonl转换为json,适用于LLaMa-LoRA-Tuner等工具。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作