onuralp/open-otter
收藏Hugging Face2023-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/onuralp/open-otter
下载链接
链接失效反馈官方服务:
资源简介:
Open-Otter数据集是为NeurIPS 2023 LLM Efficiency Challenge设计的,旨在通过微调开源基础模型来提高其在推理任务中的表现。该数据集结合了Open-Platypus的非LLM生成子集和其他四个数据集,包括ARC、CommonsenseQA、WinoGrande和MedMCQA。数据集仅包含英文数据,遵循Alpaca风格的格式化字段,包括input、output、instruction和data_source。
提供机构:
onuralp
原始信息汇总
数据集概述
数据集简介
该数据集是为了参与NeurIPS 2023 LLM Efficiency Challenge而精心策划的,旨在微调开源基础模型。该挑战要求参与者使用具有许可证书的开源模型和数据集,以鼓励生成式AI领域的更广泛应用、使用和传播。此外,不允许使用如Alpaca和Orca等由大型语言模型生成的数据集。
Open-Otter结合了Open-Platypus数据集的非LLM生成子集以及其他数据集,用于微调Llama-2-7b、Llama-2-13b和Mistral-7b-v0.1基础模型,以在组织者选择的推理任务中表现良好。
语言
该数据集仅包含英语数据,因为挑战的评估仅包括英语文本。
数据结构
数据字段
数据字段遵循Alpaca风格的格式,包括以下字段:
- input:提供额外上下文的可选字段。
- output:对相应指令的响应、答案或解决方案(例如,多项选择题)。
- instruction:包含问题和多项选择选项(如果适用)的必需字段。
- data_source:数据实例的原始数据集和拆分。
数据集创建
来源数据
该数据集结合了Open-Platypus数据集的非LLM生成子集以及以下四个额外数据集:
- Open-Platypus数据集(排除airoboros-gpt4-1.4.1和PRM800K)
- ARC(Allen AI推理挑战)
- CommonsenseQA
- WinoGrande, debiased
- MedMCQA
值得注意的是,每个数据集都包含了训练、验证和测试拆分。如果没有提供答案键,则排除测试集。



