five

onuralp/open-otter

收藏
Hugging Face2023-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/onuralp/open-otter
下载链接
链接失效反馈
官方服务:
资源简介:
Open-Otter数据集是为NeurIPS 2023 LLM Efficiency Challenge设计的,旨在通过微调开源基础模型来提高其在推理任务中的表现。该数据集结合了Open-Platypus的非LLM生成子集和其他四个数据集,包括ARC、CommonsenseQA、WinoGrande和MedMCQA。数据集仅包含英文数据,遵循Alpaca风格的格式化字段,包括input、output、instruction和data_source。
提供机构:
onuralp
原始信息汇总

数据集概述

数据集简介

该数据集是为了参与NeurIPS 2023 LLM Efficiency Challenge而精心策划的,旨在微调开源基础模型。该挑战要求参与者使用具有许可证书的开源模型和数据集,以鼓励生成式AI领域的更广泛应用、使用和传播。此外,不允许使用如Alpaca和Orca等由大型语言模型生成的数据集。

Open-Otter结合了Open-Platypus数据集的非LLM生成子集以及其他数据集,用于微调Llama-2-7b、Llama-2-13b和Mistral-7b-v0.1基础模型,以在组织者选择的推理任务中表现良好。

语言

该数据集仅包含英语数据,因为挑战的评估仅包括英语文本。

数据结构

数据字段

数据字段遵循Alpaca风格的格式,包括以下字段:

  1. input:提供额外上下文的可选字段。
  2. output:对相应指令的响应、答案或解决方案(例如,多项选择题)。
  3. instruction:包含问题和多项选择选项(如果适用)的必需字段。
  4. data_source:数据实例的原始数据集和拆分。

数据集创建

来源数据

该数据集结合了Open-Platypus数据集的非LLM生成子集以及以下四个额外数据集:

值得注意的是,每个数据集都包含了训练、验证和测试拆分。如果没有提供答案键,则排除测试集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作