wenbopan/OpenOrca-zh-20k

Name: wenbopan/OpenOrca-zh-20k
Creator: wenbopan
Published: 2024-03-22 06:34:53
License: 暂无描述

Hugging Face2024-03-22 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/wenbopan/OpenOrca-zh-20k

下载链接

链接失效反馈

官方服务：

资源简介：

OpenOrca-zh-20k数据集是Open-Orca/OpenOrca的中文版本，来源于Azure99/blossom-orca-v3。该数据集提取了所有中文样本（约20K）并单独放在zh分割中，所有样本都按照ocra格式格式化，并在第一轮中可选地包含system角色。此外，该数据集在en分割中包含200K由GPT-4生成的英文样本。数据集的特征包括id、system_prompt、question和response，分别用于标识、系统提示、问题和回答。数据集支持的任务类别包括问答和文本生成，语言包括中文和英文，标签为合成数据。

提供机构：

wenbopan

原始信息汇总

数据集概述

许可证

Apache-2.0

数据集配置

英文配置 (en)

特征:
- id: string
- system_prompt: string
- question: string
- response: string
分割:
- train:
  - 字节数: 359541091.33014905
  - 样本数: 200000
下载大小: 205541392
数据集大小: 359541091.33014905

中文配置 (zh)

特征:
- id: string
- system_prompt: string
- question: string
- response: string
分割:
- train:
  - 字节数: 36081175
  - 样本数: 19836
下载大小: 22533011
数据集大小: 36081175

数据文件配置

英文配置 (en)

数据文件:
- 分割: train
- 路径: en/train-*

中文配置 (zh)

数据文件:
- 分割: train
- 路径: zh/train-*

任务类别

问答
文本生成

语言

中文
英文