yaojialzc/Yunji-v1
收藏Hugging Face2024-05-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/yaojialzc/Yunji-v1
下载链接
链接失效反馈官方服务:
资源简介:
Yunji数据集是一个收集、整理和分类GPT-4生成的高质量中英文指令精调语料的数据集,同时提供了自己翻译的高质量数据。该数据集包含多个子数据集,涵盖了对话、数学、代码生成、代码修复、代码讨论等多个领域。数据格式处理方面,所有数据集都被转化为sharegpt格式,并且对alpaca格式的instruction和input进行了特定的连接处理。此外,数据集还包括一些非GPT生成的chat数据,这些数据同样对研究有帮助。
Yunji数据集是一个收集、整理和分类GPT-4生成的高质量中英文指令精调语料的数据集,同时提供了自己翻译的高质量数据。该数据集包含多个子数据集,涵盖了对话、数学、代码生成、代码修复、代码讨论等多个领域。数据格式处理方面,所有数据集都被转化为sharegpt格式,并且对alpaca格式的instruction和input进行了特定的连接处理。此外,数据集还包括一些非GPT生成的chat数据,这些数据同样对研究有帮助。
提供机构:
yaojialzc
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本生成
- 语言: 中文
- 大小类别: 100K<n<1M
配置详情
- config_name: alpaca-gpt4-data-zh
- 数据文件路径: "dataset-zh/alpaca-gpt4-data-zh.jsonl"
- config_name: blossom-chat-v3-zh
- 数据文件路径: "dataset-zh/blossom-chat-v3-zh.jsonl"
- config_name: blossom-math-v4-zh
- 数据文件路径: "dataset-zh/blossom-math-v4-zh.jsonl"
- config_name: blossom-orca-v3-zh
- 数据文件路径: "dataset-zh/blossom-orca-v3-zh.jsonl"
- config_name: blossom-wizard-v3-zh
- 数据文件路径: "dataset-zh/blossom-wizard-v3-zh.jsonl"
- config_name: glaive-function-calling-v2-zh
- 数据文件路径: "dataset-zh/glaive-function-calling-v2-zh.jsonl"
- config_name: OpenHermes-2.5-zh
- 数据文件路径: "dataset-zh/OpenHermes-2.5-zh.jsonl"
- config_name: RefGPT-Fact-v2-zh
- 数据文件路径: "dataset-zh/RefGPT-Fact-v2-zh.jsonl"
- config_name: RefGPT-Code-cr-zh
- 数据文件路径: "dataset-zh/RefGPT-Code-cr-zh.jsonl"
- config_name: RefGPT-Code-bg-zh
- 数据文件路径: "dataset-zh/RefGPT-Code-bg-zh.jsonl"
- config_name: RefGPT-Code-ds-zh
- 数据文件路径: "dataset-zh/RefGPT-Code-ds-zh.jsonl"
数据集内容
- ID: 1
- 名称: llm-wizard/alpaca-gpt4-data-zh
- 来源: 从Alpaca GPT-4数据中提取
- 数量: 49k
- ID: 2
- 名称: Azure99/blossom-chat-v3 (中文部分)
- 来源: 从ShareGPT中提取
- 数量: 3k
- ID: 3
- 名称: Azure99/blossom-math-v4 (中文部分)
- 来源: 从GSM8K、Math23K中提取
- 数量: 7k
- ID: 4
- 名称: Azure99/blossom-orca-v3 (中文部分)
- 来源: 从OpenOrca中提取
- 数量: 20k
- ID: 5
- 名称: Azure99/blossom-wizard-v3 (中文部分)
- 来源: 从WizardLM_evol_instruct_V2提取指令
- 数量: 10k
- ID: 6
- 名称: glaive-function-calling-v2-zh
- 来源: 从glaive-function-calling-v2中翻译,来自wenbopan/OpenHermes-2.5-zh
- 数量: 5k
- ID: 7
- 名称: OpenHermes-2.5-zh
- 来源: 从OpenHermes-2.5中翻译,来自wenbopan/OpenHermes-2.5-zh
- 数量: 86k
- ID: 8
- 名称: Mutonix/RefGPT-Fact-v2
- 来源: 基于事实知识的对话
- 数量: 61k
- ID: 9
- 名称: Mutonix/RefGPT-Code-cr
- 来源: 代码生成
- 数量: 15k
- ID: 10
- 名称: Mutonix/RefGPT-Code-bg
- 来源: 修复代码bug
- 数量: 10k
- ID: 11
- 名称: Mutonix/RefGPT-Code-ds
- 来源: 关于代码的讨论
- 数量: 14k
数据集格式
- 数据集格式处理包括将收集的数据集转化为sharegpt格式,使用
或`
`连接instruction和input作为user message。
- RefGPT相关数据集去除了外部参考,仅使用其中的chat数据。



