Open-Orca/SlimOrca

Name: Open-Orca/SlimOrca
Creator: Open-Orca
Published: 2023-10-12 06:43:59
License: 暂无描述

Hugging Face2023-10-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Open-Orca/SlimOrca

下载链接

链接失效反馈

官方服务：

资源简介：

SlimOrca是OpenOrca数据的一个精选子集，通过GPT-4去除基于FLAN数据集的人类注释中出现的错误答案，使得数据集大小减少到约500k条。这一变化使得在保持与之前发布的数据集相似的训练质量的同时，计算需求减少了2/3。

SlimOrca is a curated subset of the OpenOrca dataset. GPT-4 is utilized to eliminate incorrect answers present in the human annotations derived from the FLAN dataset, reducing the total size of the dataset to approximately 500,000 entries. This optimization reduces computational requirements by two-thirds while preserving training quality comparable to the previously released full version of the dataset.

提供机构：

Open-Orca

原始信息汇总

数据集概述

基本信息

语言: 英语
许可: MIT
任务类别:
- 对话
- 文本分类
- 标记分类
- 表格问答
- 问答
- 零样本分类
- 摘要
- 特征提取
- 文本生成
- 文本到文本生成
名称: SlimOrca
大小类别: 100K<n<1M

详细描述

数据集简介: 这是OpenOrca数据的一个新精选子集。该版本提供了一种高效的方法，可以在使用较小数据切片的情况下达到与使用更大数据切片相当的性能，同时仅包含约500k个GPT-4完成项。
关键变化: 该数据集的关键变化是我们使用GPT-4进行了额外的处理，基于FLAN数据集的人工标注移除了错误的答案。这使得数据集大小减少到仅约500k条目，允许以与之前发布相似的质量水平进行训练，同时计算需求减少了2/3。

引用

bibtex @misc{SlimOrca, title = {SlimOrca: An Open Dataset of GPT-4 Augmented FLAN Reasoning Traces, with Verification}, author = {Wing Lian and Guan Wang and Bleys Goodson and Eugene Pentland and Austin Cook and Chanvichet Vong and "Teknium"}, year = {2023}, publisher = {HuggingFace}, url = {https://https://huggingface.co/Open-Orca/SlimOrca} }

bibtex @misc{mukherjee2023orca, title={Orca: Progressive Learning from Complex Explanation Traces of GPT-4}, author={Subhabrata Mukherjee and Arindam Mitra and Ganesh Jawahar and Sahaj Agarwal and Hamid Palangi and Ahmed Awadallah}, year={2023}, eprint={2306.02707}, archivePrefix={arXiv}, primaryClass={cs.CL} }

bibtex @misc{longpre2023flan, title={The Flan Collection: Designing Data and Methods for Effective Instruction Tuning}, author={Shayne Longpre and Le Hou and Tu Vu and Albert Webson and Hyung Won Chung and Yi Tay and Denny Zhou and Quoc V. Le and Barret Zoph and Jason Wei and Adam Roberts}, year={2023}, eprint={2301.13688}, archivePrefix={arXiv}, primaryClass={cs.AI} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量的数据集对于提升模型性能至关重要。SlimOrca数据集基于OpenOrca数据精心构建，通过GPT-4对FLAN数据集的人类标注进行二次筛选，剔除了其中可能存在错误的答案，从而将数据规模优化至约50万条条目。这一构建过程不仅确保了数据的准确性与可靠性，还显著降低了训练所需的计算资源，实现了在保持性能的同时提升效率的目标。

特点

SlimOrca数据集以其精炼与高效著称，专注于对话与文本生成等多种任务类别。该数据集通过GPT-4的增强处理，融合了复杂的推理轨迹，并经过验证机制确保质量。其规模控制在10万至100万条之间，以英语为主要语言，适用于指令微调等高级应用，为研究人员提供了一个既紧凑又功能全面的资源，支持模型在减少数据依赖的情况下达到优异表现。

使用方法

SlimOrca数据集的使用旨在促进自然语言处理模型的进步，尤其适用于指令微调和生成任务。用户可通过HuggingFace平台直接访问数据集，参考提供的演示模型如Jackalope-7B和Mistral-7B-SlimOrca进行实验与应用。在学术研究中，建议引用相关文献以确保数据来源的规范性，从而支持模型训练、评估及创新方法的开发，推动该领域的技术发展。

背景与挑战

背景概述

在人工智能领域，指令调优已成为提升大型语言模型性能的关键技术。2023年，由Wing Lian、Guan Wang等研究人员及Open-Orca团队发布的SlimOrca数据集，作为OpenOrca数据的精选子集，旨在通过GPT-4增强的FLAN推理轨迹，为模型训练提供高质量、高效率的语料资源。该数据集聚焦于对话、文本生成及问答等多项自然语言处理任务，其核心研究问题在于如何利用经过验证的合成数据，以较低计算成本达到与大规模数据集相媲美的模型表现，从而推动开放科学社区在高效模型训练方面的发展。

当前挑战

SlimOrca数据集致力于解决指令调优中数据质量与计算效率的平衡挑战，具体包括如何从海量FLAN标注中筛选出可靠的GPT-4补全内容，以降低噪声并提升模型学习的准确性。在构建过程中，团队面临的主要挑战在于利用GPT-4进行二次验证时，需确保过滤机制的严谨性，避免误删有效数据，同时维持数据多样性与规模间的优化比例，这要求精细的算法设计与人工审核的结合，以实现数据精简而不失代表性。

常用场景

经典使用场景

在自然语言处理领域，SlimOrca数据集以其精炼的结构和高质量的标注，成为指令微调任务中的经典资源。该数据集通过整合FLAN数据集的人类标注与GPT-4生成的推理轨迹，为模型训练提供了丰富的对话与问答范例。研究者常利用其进行大规模语言模型的监督微调，以提升模型在复杂指令理解与多轮对话中的表现，尤其在零样本分类、文本生成等任务上展现出卓越的适应性。

衍生相关工作

围绕SlimOrca数据集，学术界衍生出一系列经典研究工作。例如，Orca论文探索了从GPT-4解释轨迹中进行渐进式学习的方法，为利用合成数据增强模型推理能力提供了理论框架。同时，FLAN系列研究进一步优化了指令调优的数据设计策略，与SlimOrca形成互补。这些工作共同推动了开放数据在模型训练中的标准化应用，促进了社区对高效微调技术与可扩展数据策展的持续探索。

数据集最近研究