lchakkei/OpenOrca-Traditional-Chinese

Name: lchakkei/OpenOrca-Traditional-Chinese
Creator: lchakkei
Published: 2023-10-11 08:29:08
License: 暂无描述

Hugging Face2023-10-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lchakkei/OpenOrca-Traditional-Chinese

下载链接

链接失效反馈

官方服务：

资源简介：

OpenOrca-Chinese数据集是Open-Orca/OpenOrca数据集的中文翻译版本，使用Google翻译引擎进行翻译，旨在为中文LLM研究做出贡献。该数据集基于FLAN Collection数据的增强版本，包含了约1M GPT-4和约3.2M GPT-3.5的完成数据，主要用于自然语言处理领域的训练和评估。

提供机构：

lchakkei

原始信息汇总

OpenOrca-Chinese 数据集概述

数据集摘要

OpenOrca 数据集是一个增强的 FLAN Collection 数据集合。目前包含约 100 万条 GPT-4 完成记录和约 320 万条 GPT-3.5 完成记录。该数据集以表格形式呈现，与 ORCA 论文中提出的分布一致，目前代表了完整数据集的部分完成，正在进行生成以扩展其范围。数据主要用于自然语言处理领域的训练和评估。

数据集结构

数据实例

数据集中的一个数据实例代表从 FLAN 集合中提取的条目，这些条目通过提交给 GPT-4 或 GPT-3.5 进行增强。响应随后被输入到响应字段中。

数据字段

数据集包含以下字段：

id：一个唯一的编号标识符，包括 niv、t0、cot 或 flan 之一，表示问题来源的 FLAN Collection 子混合。
system_prompt：向 GPT-3.5 或 GPT-4 API 提供的系统提示。
question：由 FLAN Collection 提供的问题条目。
response：从 GPT-3.5 或 GPT-4 查询中收到的对该问题的响应。

5,000+

优质数据集

54 个

任务类型

进入经典数据集