five

lchakkei/OpenOrca-Traditional-Chinese

收藏
Hugging Face2023-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lchakkei/OpenOrca-Traditional-Chinese
下载链接
链接失效反馈
官方服务:
资源简介:
OpenOrca-Chinese数据集是Open-Orca/OpenOrca数据集的中文翻译版本,使用Google翻译引擎进行翻译,旨在为中文LLM研究做出贡献。该数据集基于FLAN Collection数据的增强版本,包含了约1M GPT-4和约3.2M GPT-3.5的完成数据,主要用于自然语言处理领域的训练和评估。

OpenOrca-Chinese数据集是Open-Orca/OpenOrca数据集的中文翻译版本,使用Google翻译引擎进行翻译,旨在为中文LLM研究做出贡献。该数据集基于FLAN Collection数据的增强版本,包含了约1M GPT-4和约3.2M GPT-3.5的完成数据,主要用于自然语言处理领域的训练和评估。
提供机构:
lchakkei
原始信息汇总

OpenOrca-Chinese 数据集概述

数据集摘要

OpenOrca 数据集是一个增强的 FLAN Collection 数据 集合。目前包含约 100 万条 GPT-4 完成记录和约 320 万条 GPT-3.5 完成记录。该数据集以表格形式呈现,与 ORCA 论文中提出的分布一致,目前代表了完整数据集的部分完成,正在进行生成以扩展其范围。数据主要用于自然语言处理领域的训练和评估。

数据集结构

数据实例

数据集中的一个数据实例代表从 FLAN 集合中提取的条目,这些条目通过提交给 GPT-4 或 GPT-3.5 进行增强。响应随后被输入到响应字段中。

数据字段

数据集包含以下字段:

  1. id:一个唯一的编号标识符,包括 niv、t0、cot 或 flan 之一,表示问题来源的 FLAN Collection 子混合。
  2. system_prompt:向 GPT-3.5 或 GPT-4 API 提供的系统提示。
  3. question:由 FLAN Collection 提供的问题条目。
  4. response:从 GPT-3.5 或 GPT-4 查询中收到的对该问题的响应。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作