Open-Orca/SlimOrca
收藏数据集概述
基本信息
- 语言: 英语
- 许可: MIT
- 任务类别:
- 对话
- 文本分类
- 标记分类
- 表格问答
- 问答
- 零样本分类
- 摘要
- 特征提取
- 文本生成
- 文本到文本生成
- 名称: SlimOrca
- 大小类别: 100K<n<1M
详细描述
- 数据集简介: 这是OpenOrca数据的一个新精选子集。该版本提供了一种高效的方法,可以在使用较小数据切片的情况下达到与使用更大数据切片相当的性能,同时仅包含约500k个GPT-4完成项。
- 关键变化: 该数据集的关键变化是我们使用GPT-4进行了额外的处理,基于FLAN数据集的人工标注移除了错误的答案。这使得数据集大小减少到仅约500k条目,允许以与之前发布相似的质量水平进行训练,同时计算需求减少了2/3。
引用
bibtex @misc{SlimOrca, title = {SlimOrca: An Open Dataset of GPT-4 Augmented FLAN Reasoning Traces, with Verification}, author = {Wing Lian and Guan Wang and Bleys Goodson and Eugene Pentland and Austin Cook and Chanvichet Vong and "Teknium"}, year = {2023}, publisher = {HuggingFace}, url = {https://https://huggingface.co/Open-Orca/SlimOrca} }
bibtex @misc{mukherjee2023orca, title={Orca: Progressive Learning from Complex Explanation Traces of GPT-4}, author={Subhabrata Mukherjee and Arindam Mitra and Ganesh Jawahar and Sahaj Agarwal and Hamid Palangi and Ahmed Awadallah}, year={2023}, eprint={2306.02707}, archivePrefix={arXiv}, primaryClass={cs.CL} }
bibtex @misc{longpre2023flan, title={The Flan Collection: Designing Data and Methods for Effective Instruction Tuning}, author={Shayne Longpre and Le Hou and Tu Vu and Albert Webson and Hyung Won Chung and Yi Tay and Denny Zhou and Quoc V. Le and Barret Zoph and Jason Wei and Adam Roberts}, year={2023}, eprint={2301.13688}, archivePrefix={arXiv}, primaryClass={cs.AI} }




