lchakkei/OpenOrca-Traditional-Chinese
收藏Hugging Face2023-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lchakkei/OpenOrca-Traditional-Chinese
下载链接
链接失效反馈官方服务:
资源简介:
OpenOrca-Chinese数据集是Open-Orca/OpenOrca数据集的中文翻译版本,使用Google翻译引擎进行翻译,旨在为中文LLM研究做出贡献。该数据集基于FLAN Collection数据的增强版本,包含了约1M GPT-4和约3.2M GPT-3.5的完成数据,主要用于自然语言处理领域的训练和评估。
OpenOrca-Chinese数据集是Open-Orca/OpenOrca数据集的中文翻译版本,使用Google翻译引擎进行翻译,旨在为中文LLM研究做出贡献。该数据集基于FLAN Collection数据的增强版本,包含了约1M GPT-4和约3.2M GPT-3.5的完成数据,主要用于自然语言处理领域的训练和评估。
提供机构:
lchakkei
原始信息汇总
OpenOrca-Chinese 数据集概述
数据集摘要
OpenOrca 数据集是一个增强的 FLAN Collection 数据 集合。目前包含约 100 万条 GPT-4 完成记录和约 320 万条 GPT-3.5 完成记录。该数据集以表格形式呈现,与 ORCA 论文中提出的分布一致,目前代表了完整数据集的部分完成,正在进行生成以扩展其范围。数据主要用于自然语言处理领域的训练和评估。
数据集结构
数据实例
数据集中的一个数据实例代表从 FLAN 集合中提取的条目,这些条目通过提交给 GPT-4 或 GPT-3.5 进行增强。响应随后被输入到响应字段中。
数据字段
数据集包含以下字段:
- id:一个唯一的编号标识符,包括 niv、t0、cot 或 flan 之一,表示问题来源的 FLAN Collection 子混合。
- system_prompt:向 GPT-3.5 或 GPT-4 API 提供的系统提示。
- question:由 FLAN Collection 提供的问题条目。
- response:从 GPT-3.5 或 GPT-4 查询中收到的对该问题的响应。



