five

yaojialzc/Yunji-v1

收藏
Hugging Face2024-05-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/yaojialzc/Yunji-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Yunji数据集是一个收集、整理和分类GPT-4生成的高质量中英文指令精调语料的数据集,同时提供了自己翻译的高质量数据。该数据集包含多个子数据集,涵盖了对话、数学、代码生成、代码修复、代码讨论等多个领域。数据格式处理方面,所有数据集都被转化为sharegpt格式,并且对alpaca格式的instruction和input进行了特定的连接处理。此外,数据集还包括一些非GPT生成的chat数据,这些数据同样对研究有帮助。

Yunji数据集是一个收集、整理和分类GPT-4生成的高质量中英文指令精调语料的数据集,同时提供了自己翻译的高质量数据。该数据集包含多个子数据集,涵盖了对话、数学、代码生成、代码修复、代码讨论等多个领域。数据格式处理方面,所有数据集都被转化为sharegpt格式,并且对alpaca格式的instruction和input进行了特定的连接处理。此外,数据集还包括一些非GPT生成的chat数据,这些数据同样对研究有帮助。
提供机构:
yaojialzc
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 文本生成
  • 语言: 中文
  • 大小类别: 100K<n<1M

配置详情

  • config_name: alpaca-gpt4-data-zh
    • 数据文件路径: "dataset-zh/alpaca-gpt4-data-zh.jsonl"
  • config_name: blossom-chat-v3-zh
    • 数据文件路径: "dataset-zh/blossom-chat-v3-zh.jsonl"
  • config_name: blossom-math-v4-zh
    • 数据文件路径: "dataset-zh/blossom-math-v4-zh.jsonl"
  • config_name: blossom-orca-v3-zh
    • 数据文件路径: "dataset-zh/blossom-orca-v3-zh.jsonl"
  • config_name: blossom-wizard-v3-zh
    • 数据文件路径: "dataset-zh/blossom-wizard-v3-zh.jsonl"
  • config_name: glaive-function-calling-v2-zh
    • 数据文件路径: "dataset-zh/glaive-function-calling-v2-zh.jsonl"
  • config_name: OpenHermes-2.5-zh
    • 数据文件路径: "dataset-zh/OpenHermes-2.5-zh.jsonl"
  • config_name: RefGPT-Fact-v2-zh
    • 数据文件路径: "dataset-zh/RefGPT-Fact-v2-zh.jsonl"
  • config_name: RefGPT-Code-cr-zh
    • 数据文件路径: "dataset-zh/RefGPT-Code-cr-zh.jsonl"
  • config_name: RefGPT-Code-bg-zh
    • 数据文件路径: "dataset-zh/RefGPT-Code-bg-zh.jsonl"
  • config_name: RefGPT-Code-ds-zh
    • 数据文件路径: "dataset-zh/RefGPT-Code-ds-zh.jsonl"

数据集内容

  • ID: 1
    • 名称: llm-wizard/alpaca-gpt4-data-zh
    • 来源: 从Alpaca GPT-4数据中提取
    • 数量: 49k
  • ID: 2
    • 名称: Azure99/blossom-chat-v3 (中文部分)
    • 来源: 从ShareGPT中提取
    • 数量: 3k
  • ID: 3
    • 名称: Azure99/blossom-math-v4 (中文部分)
    • 来源: 从GSM8K、Math23K中提取
    • 数量: 7k
  • ID: 4
    • 名称: Azure99/blossom-orca-v3 (中文部分)
    • 来源: 从OpenOrca中提取
    • 数量: 20k
  • ID: 5
    • 名称: Azure99/blossom-wizard-v3 (中文部分)
    • 来源: 从WizardLM_evol_instruct_V2提取指令
    • 数量: 10k
  • ID: 6
    • 名称: glaive-function-calling-v2-zh
    • 来源: 从glaive-function-calling-v2中翻译,来自wenbopan/OpenHermes-2.5-zh
    • 数量: 5k
  • ID: 7
    • 名称: OpenHermes-2.5-zh
    • 来源: 从OpenHermes-2.5中翻译,来自wenbopan/OpenHermes-2.5-zh
    • 数量: 86k
  • ID: 8
    • 名称: Mutonix/RefGPT-Fact-v2
    • 来源: 基于事实知识的对话
    • 数量: 61k
  • ID: 9
    • 名称: Mutonix/RefGPT-Code-cr
    • 来源: 代码生成
    • 数量: 15k
  • ID: 10
    • 名称: Mutonix/RefGPT-Code-bg
    • 来源: 修复代码bug
    • 数量: 10k
  • ID: 11
    • 名称: Mutonix/RefGPT-Code-ds
    • 来源: 关于代码的讨论
    • 数量: 14k

数据集格式

  • 数据集格式处理包括将收集的数据集转化为sharegpt格式,使用 或`

`连接instruction和input作为user message。

  • RefGPT相关数据集去除了外部参考,仅使用其中的chat数据。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作