polinaeterna/OpenOrca

Name: polinaeterna/OpenOrca
Creator: polinaeterna
Published: 2023-12-27 17:23:49
License: 暂无描述

Hugging Face2023-12-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/polinaeterna/OpenOrca

下载链接

链接失效反馈

官方服务：

资源简介：

OpenOrca数据集是一个增强的FLAN数据集合，目前包含约100万条GPT-4的完成数据和约320万条GPT-3.5的完成数据。该数据集按照Orca论文中提出的分布进行了表格化处理，目前代表了完整预期数据集的部分完成，正在进行生成以扩展其范围。该数据主要用于自然语言处理领域的训练和评估。

提供机构：

polinaeterna

原始信息汇总

数据集概述

OpenOrca数据集是一个增强的FLAN数据集合，目前包含约100万条GPT-4完成和320万条GPT-3.5完成。该数据集与Orca论文中描述的分布尽可能一致，主要用于自然语言处理领域的训练和评估。

该数据集的贡献者包括Teknium、WingLian/Caseus、Eric Hartford等，以及AlignmentLab.ai的成员。特别感谢NanoBit和Caseus开发的Axolotl平台。

该数据集支持多种任务，包括语言建模、文本生成和文本增强。它对于生成高性能模型检查点至关重要，这些模型在单元测试中表现出色。

数据集主要使用英语。

每个数据实例代表从FLAN集合中增强的条目，通过提交问题给GPT-4或GPT-3.5，并将响应输入到响应字段中。

数据字段包括：

数据未分割。

该数据集旨在为研究人员和开发者提供增强的文本数据源。数据点主要用于增强FLAN集合数据，利用GPT-3.5和GPT-4的详细推理能力。

数据生成遵循Orca论文中描述的分布，但有一些调整，例如使用了HuggingFace上托管的FLAN集合数据子集。

该数据集可用于语言理解、自然语言处理、机器学习模型训练和模型性能评估。

由于该数据集仍在进行中，建议定期检查更新。使用时应遵循Orca论文中的指南和建议。

该数据集可通过Hugging Face数据集库直接加载，建议使用流式加载。

5,000+

优质数据集

54 个

任务类型

进入经典数据集