The-Tome

Name: The-Tome
Creator: Arcee AI
Published: 2024-07-23 06:35:57
License: 暂无描述

Hugging Face2024-07-23 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/arcee-ai/The-Tome

下载链接

链接失效反馈

官方服务：

资源简介：

The Tome数据集是一个精心策划的数据集，旨在用于训练专注于指令遵循的大型语言模型。该数据集包含了175万个样本，这些样本是从9个公开可用的数据集中编译而来的。数据集的构成包括多个子数据集，如arcee-ai/infini-instruct-top-500k、TIGER-Lab/WebInstructSub等。在数据集的策划过程中，采用了重新排序和教育价值评分等方法来确保内容的高质量。The Tome数据集在Nova模型的开发中起到了关键作用，该模型后来与Qwen2-72B-Instruct模型合并。

提供机构：

Arcee AI

创建时间：

2024-07-22

原始信息汇总

The Tome 数据集概述

基本信息

许可证: MIT
用途: 专注于指令跟随的大型语言模型训练
应用模型: 用于训练Arcee-Nova/Spark模型，后与Qwen2-72B-Instruct（或7B Spark模型）合并

数据集构成

总样本量: 175万
数据来源: 9个公开数据集组合

包含数据集列表

arcee-ai/infini-instruct-top-500k (BAAI/Infinity-Instruct)
TIGER-Lab/WebInstructSub (top-500k)
jondurbin/airoboros-3.2
gardner/glaive-function-calling-v2-sharegpt
arcee-ai/reasoning-sharegpt (SkunkworksAI/reasoning-0.01)
arcee-ai/self-instruct-sharegpt (bigcode/self-oss-instruct-sc2-exec-filter-50k)
cognitivecomputations/ultrainteract_trajectories_sharegpt
cognitivecomputations/SystemChat-2.0
arcee-ai/qwen2-72b-magpie-en

数据筛选流程

重排序: 应用于Infini-Instruct和WebInstruct的指令跟随
教育价值评分: 使用fineweb-edu分类器对Infini-Instruct和WebInstruct评分
综合评分: 自定义重排序器和fineweb-edu分类器得分的平均值

模型训练应用

合并过程:
- 底层主要来自Qwen2-72B-Instruct
- 高层主要来自Nova-Premerge

搜集汇总

数据集介绍

构建方式

The-Tome数据集的构建过程体现了对高质量数据的严格筛选与整合。该数据集从9个公开可用的数据源中精选了175万条样本，涵盖了多个领域的指令遵循任务。在数据整理过程中，采用了重新排序器（Reranker）对Infini-Instruct和WebInstruct数据集进行指令遵循优化，并结合FineWeb-Edu分类器对教育价值进行评分。最终，通过综合评分的方式，将重新排序器和教育价值评分的结果进行平均，确保了数据的高质量与多样性。

特点

The-Tome数据集以其多样性和高质量著称，涵盖了广泛的指令遵循任务。数据来源包括多个知名数据集，如Infini-Instruct、WebInstruct、Airoboros等，确保了内容的丰富性与代表性。通过重新排序器和教育价值评分的双重筛选，数据集不仅优化了指令遵循能力，还增强了教育价值，使其特别适合用于训练大规模语言模型。此外，数据集的规模达到175万条样本，为模型训练提供了充足的资源。

使用方法

The-Tome数据集在模型训练中发挥了重要作用，特别是在Arcee-Nova/Spark模型的开发过程中。该数据集被用于训练Nova模型，随后与Qwen2-72B-Instruct模型进行合并。在合并过程中，Nova模型的低层主要来自Qwen2-72B-Instruct，而高层则主要来自Nova-Premerge。这种分层合并策略充分利用了The-Tome数据集在指令遵循任务中的优势，显著提升了模型的性能与泛化能力。

背景与挑战

背景概述

The Tome数据集是一个专门为训练大型语言模型而设计的精选数据集，特别关注指令跟随能力的提升。该数据集由Arcee-Nova/Spark模型训练过程中使用，并最终与Qwen2-72B-Instruct模型合并。数据集由9个公开可用的数据集组成，总计包含175万个样本。The Tome的创建旨在通过高质量的数据集提升模型在复杂指令理解和执行方面的能力，为自然语言处理领域的研究提供了重要的数据支持。其核心研究问题在于如何通过数据集的优化提升模型在指令跟随任务中的表现，进而推动语言模型在实际应用中的广泛使用。

当前挑战

The Tome数据集在构建过程中面临多重挑战。首先，数据集需要从多个来源整合数据，确保数据的一致性和高质量。其次，数据集的筛选和评分过程复杂，需通过自定义的重新排序器和教育价值评分系统进行综合评分，以确保数据的教育价值和指令跟随能力。此外，数据集的最终应用需要与现有模型进行有效融合，特别是在模型的不同层次上进行优化，以确保合并后的模型在性能上有所提升。这些挑战不仅涉及数据处理的技术难题，还包括模型架构的优化和性能评估的复杂性。

常用场景

经典使用场景

The-Tome数据集在自然语言处理领域中被广泛用于训练大型语言模型，特别是在指令跟随任务中表现出色。其经典使用场景包括生成符合特定指令的文本、问答系统以及对话生成。通过整合多个高质量数据集，The-Tome为模型提供了丰富的指令样本，使其能够更好地理解和执行复杂的任务。

衍生相关工作

The-Tome数据集衍生了多个经典工作，其中最著名的是Arcee-Nova/Spark模型的开发。该模型通过结合The-Tome数据集与Qwen2-72B-Instruct模型，显著提升了指令跟随能力。此外，基于该数据集的研究还推动了多任务学习、模型融合等领域的发展，为后续的学术研究和工业应用提供了重要参考。

数据集最近研究