tulu-v3.1-mix-preview-4096-OLMoE

Name: tulu-v3.1-mix-preview-4096-OLMoE
Creator: Allen Institute for AI
Published: 2024-08-09 05:38:44
License: 暂无描述

Hugging Face2024-08-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/allenai/tulu-v3.1-mix-preview-4096-OLMoE

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一个名为'messages'的特征，该特征是一个列表，包含'content'和'role'两个子特征，均为字符串类型。数据集分为训练集，包含608042个样本，总大小为1741315705字节。数据集的下载大小为851954240字节。数据集的许可证为odc-by。数据集是通过混合多个其他数据集创建的，包括'allenai/tulu-v2-sft-mixture-olmo-4096'、'HuggingFaceH4/no_robots'、'meta-math/MetaMathQA'、'm-a-p/CodeFeedback-Filtered-Instruction'和'ai2-adapt-dev/daring-anteater-specialized'，最大序列长度为4096。数据集还包含一个重命名代码，用于将'OLMo'替换为'OLMoE'。

This dataset includes a feature named `messages`, which is a list comprising two sub-features: `content` and `role`, both of string data type. The dataset is split into a training set containing 608,042 samples with a total size of 1,741,315,705 bytes. The download size of the dataset is 851,954,240 bytes. The dataset is licensed under odc-by. It is constructed by mixing multiple other datasets, including `allenai/tulu-v2-sft-mixture-olmo-4096`, `HuggingFaceH4/no_robots`, `meta-math/MetaMathQA`, `m-a-p/CodeFeedback-Filtered-Instruction`, and `ai2-adapt-dev/daring-anteater-specialized`, with a maximum sequence length of 4096. The dataset also includes a renaming script for replacing `OLMo` with `OLMoE`.

提供机构：

Allen Institute for AI

创建时间：

2024-07-31

原始信息汇总

数据集概述

数据集信息

特征:
- messages: 包含以下子特征的列表
  - content: 数据类型为字符串
  - role: 数据类型为字符串
分割:
- train: 包含608042个样本，占用1741315705字节
下载大小: 851954240字节
数据集大小: 1741315705字节
配置:
- default: 数据文件路径为data/train-*
许可证: odc-by

数据集混合配置

混合比例:
- allenai/tulu-v2-sft-mixture-olmo-4096: 1.0
- HuggingFaceH4/no_robots: 1.0
- meta-math/MetaMathQA: 0.25
- m-a-p/CodeFeedback-Filtered-Instruction: 1.0
- ai2-adapt-dev/daring-anteater-specialized: 1.0
最大序列长度: 4096

相关数据集

版本	名称	摘要	最大长度	模型名称
v1	allenai/tulu-v1-sft-mixture
v2	allenai/tulu-v2-sft-mixture		4096
v2	allenai/tulu-v2-sft-mixture-olmo-2048		2048	OLMo-2048
v3.0	allenai/tulu-v3.0-mix-preview-4096-OLMo	Tulu 2 + Math/Code + No Robots	4096	OLMo
v3.0	allenai/tulu-v3.0-mix-preview-4096-OLMoE	OLMoE Name	4096	OLMoE
v3.1	allenai/tulu-v3.1-mix-preview-4096-OLMoE	Add specialized Daring Anteater	4096	OLMoE

搜集汇总

数据集介绍

构建方式

tulu-v3.1-mix-preview-4096-OLMoE数据集是基于Tulu v2 SFT mix的扩展版本，新增了代码、推理和指令跟随等领域的多个数据集，如CodeFeedback-Filtered-Instruction、MetaMathQA和No Robots等。通过open-instruct工具进行配置，各数据集的权重分配明确，确保数据的多样性和代表性。数据集的构建过程中，还通过重命名函数对消息内容进行了标准化处理，以适应OLMoE模型的输入要求。

特点

该数据集的特点在于其广泛覆盖了代码生成、数学推理和指令跟随等多个任务领域，数据量庞大且多样，包含超过60万条示例。每条数据均以消息列表的形式呈现，包含角色和内容两个字段，便于模型理解和处理。数据集的最大序列长度为4096，适合处理较长的文本输入。此外，数据集还特别引入了Daring Anteater的专用数据，进一步增强了其在特定任务上的表现。

使用方法

使用tulu-v3.1-mix-preview-4096-OLMoE数据集时，可通过Hugging Face平台直接下载并加载。数据集的train分割包含完整的训练数据，可直接用于模型的监督微调（SFT）。用户可以根据需要调整数据集的配置，如权重分配和最大序列长度，以适应不同的模型架构和任务需求。此外，数据集的重命名函数可用于进一步处理消息内容，确保与OLMoE模型的兼容性。

背景与挑战

背景概述

tulu-v3.1-mix-preview-4096-OLMoE数据集是由Allen Institute for AI等机构开发的一个用于监督微调（SFT）的混合数据集，旨在提升模型在代码生成、数学推理和指令遵循等任务上的表现。该数据集基于Tulu v2 SFT mix的扩展版本，新增了来自CodeFeedback-Filtered-Instruction、MetaMathQA、No Robots和Daring Anteater等数据源的内容。其核心研究问题在于如何通过多样化的数据组合优化模型的泛化能力，特别是在复杂任务中的表现。该数据集对自然语言处理领域的研究具有重要意义，尤其是在多任务学习和模型微调方面推动了技术进步。

当前挑战

tulu-v3.1-mix-preview-4096-OLMoE数据集在构建和应用中面临多重挑战。首先，数据集需要解决多领域任务（如代码生成、数学推理和指令遵循）的复杂性问题，这对模型的泛化能力提出了更高要求。其次，数据集的构建涉及多个异构数据源的整合，如何确保数据的一致性和质量成为关键挑战。此外，由于数据集规模庞大（包含超过60万条样本），如何在有限的计算资源下高效处理和训练模型也是一个重要问题。最后，数据集的使用需要严格遵守各数据源的许可协议，这对数据的管理和分发提出了额外的合规性要求。

常用场景

经典使用场景

在自然语言处理领域，tulu-v3.1-mix-preview-4096-OLMoE数据集广泛应用于指令微调（SFT）任务中，特别是在代码生成、数学推理和指令遵循等复杂任务中。该数据集通过整合多个高质量子集，如CodeFeedback-Filtered-Instruction、MetaMathQA和No Robots，为模型提供了多样化的训练样本，使其能够在多任务场景下表现出色。

衍生相关工作

tulu-v3.1-mix-preview-4096-OLMoE数据集衍生了一系列经典工作，包括基于OLMoE模型的指令微调研究、多任务学习框架的优化以及跨领域迁移学习的探索。这些工作进一步推动了自然语言处理领域的技术进步，并为后续研究提供了宝贵的参考。

数据集最近研究