Open-Orca/OpenOrca

Hugging Face2025-02-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Open-Orca/OpenOrca

下载链接

链接失效反馈

资源简介：

OpenOrca数据集是一个增强的FLAN数据集合，主要用于自然语言处理领域的训练和评估。该数据集支持多种NLP任务，如语言建模、文本生成和文本增强，并已用于生成高性能模型检查点。数据集主要使用英语，包含来自FLAN集合的增强条目，每个条目包含来自GPT-3.5或GPT-4的响应。该数据集是一个持续进行的工作，定期更新。

The OpenOrca dataset is an enhanced FLAN collection primarily used for training and evaluation in the field of natural language processing. It supports a variety of NLP tasks such as language modeling, text generation and text augmentation, and has been employed to generate high-performance model checkpoints. The dataset is mainly in English, containing enhanced entries sourced from the FLAN collection, where each entry includes responses from GPT-3.5 or GPT-4. This dataset is an ongoing work that is updated regularly.

提供机构：

Open-Orca

原始信息汇总

数据集概述

名称: OpenOrca
语言: 英语
许可证: MIT
任务类别:
- 对话
- 文本分类
- 令牌分类
- 表格问题回答
- 问答
- 零样本分类
- 摘要
- 特征提取
- 文本生成
- 文本到文本生成
大小类别: 10M<n<100M

数据集内容

数据来源: 基于FLAN Collection数据，通过GPT-4和GPT-3.5进行增强。
数据规模: 约1M GPT-4完成和约3.2M GPT-3.5完成。
数据结构: 表格化，与ORCA论文中描述的分布相符。

数据集结构

数据实例: 每个实例代表从FLAN Collection中提取的问题，并通过GPT-4或GPT-3.5获取响应。
数据字段:
1. id - 唯一标识符，包含niv, t0, cot, 或 flan以表示来源的FLAN Collection子混合。
2. system_prompt - 系统提示，用于GPT-3.5或GPT-4 API。
3. question - 来自FLAN Collection的问题。
4. response - 通过查询GPT-3.5或GPT-4获得的响应。
数据分割: 未分割。

数据集创建

筛选理由: 提供增强的文本数据，主要用于增强FLAN Collection数据，利用GPT-3.5和GPT-4的详细步骤推理能力。
源数据: 使用HuggingFace上托管的预生成FLAN Collection数据集，如conceptofmind/flan2021。

数据集使用

使用案例: 用于语言理解、自然语言处理、机器学习模型训练和模型性能评估。
使用注意事项: 由于数据集仍在进行中，建议定期检查更新和改进，并遵循ORCA论文中的指南和建议。

支持的任务和排行榜

支持任务: 包括语言建模、文本生成和文本增强。
排行榜: 相关信息将在可用时更新。

搜集汇总

数据集介绍

构建方式

OpenOrca数据集是由FLAN Collection数据增强而成的集合，旨在为研究人员和开发者提供丰富的文本数据资源。该数据集通过将FLAN Collection中的问题提交给GPT-3.5或GPT-4，并将得到的回答作为数据点进行收录，以实现推理轨迹的增强，进而提高模型的推理能力。

特点

OpenOrca数据集的特点在于其基于FLAN Collection数据的增强，通过引入GPT-3.5和GPT-4的回答，为模型训练提供了丰富的推理信息。该数据集涵盖了约1M个GPT-4的完成和3.2M个GPT-3.5的完成，并以表格形式与ORCA论文中提出的数据分布保持一致。目前，该数据集仍在持续生成中，以扩大其规模和覆盖范围。

使用方法

使用OpenOrca数据集时，用户可以通过Hugging Face datasets库进行数据加载。由于文件体积较大，推荐使用流式加载方式。用户应当关注数据集的更新和改进，并遵循ORCA论文中的指南和建议进行使用。

背景与挑战

背景概述

OpenOrca数据集是一项旨在增强自然语言处理能力的研究成果，其创建背景源于对FLAN Collection数据集的拓展与深化。该数据集由多个贡献者共同构建，于2023年发布，主要研究人员涵盖了Teknium、WingLian/Caseus等领域的专家。OpenOrca的核心研究问题是如何通过GPT-3.5和GPT-4的推理轨迹增强来提升LLaMA-13B模型在硬推理任务上的表现。该数据集对相关领域的影响力体现在其助力了多个高性能模型检查点的生成，并在自然语言处理任务中表现出色。

当前挑战

OpenOrca数据集面临的挑战主要包括两个方面：一是数据集构建过程中的挑战，如FLAN Collection数据集中的CoT数据不足，以及数据集规模与Orca论文中描述的不符等问题；二是数据集解决的领域问题，即如何在保持数据质量的同时，有效支持语言模型在文本分类、零样本分类、文本摘要等任务上的训练与评估。

常用场景

经典使用场景

OpenOrca数据集作为FLAN Collection数据的增强版，其经典使用场景主要在于自然语言处理模型的训练与评估。该数据集通过引入GPT-3.5和GPT-4的详细推理过程，为模型提供了丰富的推理轨迹，进而显著提升了模型在复杂推理任务上的表现。

解决学术问题

该数据集解决了自然语言处理领域中小型模型在处理复杂推理任务时性能不佳的问题。通过推理轨迹的增强，使得基于LLaMA-13B等中小型模型能够匹敌或超越GPT-3.5，在一系列难度较高的推理任务上取得了显著进步。

衍生相关工作

基于OpenOrca数据集，研究者们已经开发出了多个性能卓越的模型 checkpoints，如Mistral-7B-OpenOrca和OpenOrca-Platypus2-13B等。这些模型的开发不仅推动了自然语言处理领域的研究，也为相关应用场景提供了强大的模型支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集