The-Tome
收藏Hugging Face2024-07-23 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/arcee-ai/The-Tome
下载链接
链接失效反馈官方服务:
资源简介:
The Tome数据集是一个精心策划的数据集,旨在用于训练专注于指令遵循的大型语言模型。该数据集包含了175万个样本,这些样本是从9个公开可用的数据集中编译而来的。数据集的构成包括多个子数据集,如arcee-ai/infini-instruct-top-500k、TIGER-Lab/WebInstructSub等。在数据集的策划过程中,采用了重新排序和教育价值评分等方法来确保内容的高质量。The Tome数据集在Nova模型的开发中起到了关键作用,该模型后来与Qwen2-72B-Instruct模型合并。
The Tome数据集是一个精心策划的数据集,旨在用于训练专注于指令遵循的大型语言模型。该数据集包含了175万个样本,这些样本是从9个公开可用的数据集中编译而来的。数据集的构成包括多个子数据集,如arcee-ai/infini-instruct-top-500k、TIGER-Lab/WebInstructSub等。在数据集的策划过程中,采用了重新排序和教育价值评分等方法来确保内容的高质量。The Tome数据集在Nova模型的开发中起到了关键作用,该模型后来与Qwen2-72B-Instruct模型合并。
提供机构:
Arcee AI
创建时间:
2024-07-22
原始信息汇总
The Tome 数据集概述
基本信息
- 许可证: MIT
- 用途: 专注于指令跟随的大型语言模型训练
- 应用模型: 用于训练Arcee-Nova/Spark模型,后与Qwen2-72B-Instruct(或7B Spark模型)合并
数据集构成
- 总样本量: 175万
- 数据来源: 9个公开数据集组合
包含数据集列表
- arcee-ai/infini-instruct-top-500k (BAAI/Infinity-Instruct)
- TIGER-Lab/WebInstructSub (top-500k)
- jondurbin/airoboros-3.2
- gardner/glaive-function-calling-v2-sharegpt
- arcee-ai/reasoning-sharegpt (SkunkworksAI/reasoning-0.01)
- arcee-ai/self-instruct-sharegpt (bigcode/self-oss-instruct-sc2-exec-filter-50k)
- cognitivecomputations/ultrainteract_trajectories_sharegpt
- cognitivecomputations/SystemChat-2.0
- arcee-ai/qwen2-72b-magpie-en
数据筛选流程
- 重排序: 应用于Infini-Instruct和WebInstruct的指令跟随
- 教育价值评分: 使用fineweb-edu分类器对Infini-Instruct和WebInstruct评分
- 综合评分: 自定义重排序器和fineweb-edu分类器得分的平均值
模型训练应用
- 合并过程:
- 底层主要来自Qwen2-72B-Instruct
- 高层主要来自Nova-Premerge
搜集汇总
数据集介绍

构建方式
The-Tome数据集的构建过程体现了对高质量数据的严格筛选与整合。该数据集从9个公开可用的数据源中精选了175万条样本,涵盖了多个领域的指令遵循任务。在数据整理过程中,采用了重新排序器(Reranker)对Infini-Instruct和WebInstruct数据集进行指令遵循优化,并结合FineWeb-Edu分类器对教育价值进行评分。最终,通过综合评分的方式,将重新排序器和教育价值评分的结果进行平均,确保了数据的高质量与多样性。
特点
The-Tome数据集以其多样性和高质量著称,涵盖了广泛的指令遵循任务。数据来源包括多个知名数据集,如Infini-Instruct、WebInstruct、Airoboros等,确保了内容的丰富性与代表性。通过重新排序器和教育价值评分的双重筛选,数据集不仅优化了指令遵循能力,还增强了教育价值,使其特别适合用于训练大规模语言模型。此外,数据集的规模达到175万条样本,为模型训练提供了充足的资源。
使用方法
The-Tome数据集在模型训练中发挥了重要作用,特别是在Arcee-Nova/Spark模型的开发过程中。该数据集被用于训练Nova模型,随后与Qwen2-72B-Instruct模型进行合并。在合并过程中,Nova模型的低层主要来自Qwen2-72B-Instruct,而高层则主要来自Nova-Premerge。这种分层合并策略充分利用了The-Tome数据集在指令遵循任务中的优势,显著提升了模型的性能与泛化能力。
背景与挑战
背景概述
The Tome数据集是一个专门为训练大型语言模型而设计的精选数据集,特别关注指令跟随能力的提升。该数据集由Arcee-Nova/Spark模型训练过程中使用,并最终与Qwen2-72B-Instruct模型合并。数据集由9个公开可用的数据集组成,总计包含175万个样本。The Tome的创建旨在通过高质量的数据集提升模型在复杂指令理解和执行方面的能力,为自然语言处理领域的研究提供了重要的数据支持。其核心研究问题在于如何通过数据集的优化提升模型在指令跟随任务中的表现,进而推动语言模型在实际应用中的广泛使用。
当前挑战
The Tome数据集在构建过程中面临多重挑战。首先,数据集需要从多个来源整合数据,确保数据的一致性和高质量。其次,数据集的筛选和评分过程复杂,需通过自定义的重新排序器和教育价值评分系统进行综合评分,以确保数据的教育价值和指令跟随能力。此外,数据集的最终应用需要与现有模型进行有效融合,特别是在模型的不同层次上进行优化,以确保合并后的模型在性能上有所提升。这些挑战不仅涉及数据处理的技术难题,还包括模型架构的优化和性能评估的复杂性。
常用场景
经典使用场景
The-Tome数据集在自然语言处理领域中被广泛用于训练大型语言模型,特别是在指令跟随任务中表现出色。其经典使用场景包括生成符合特定指令的文本、问答系统以及对话生成。通过整合多个高质量数据集,The-Tome为模型提供了丰富的指令样本,使其能够更好地理解和执行复杂的任务。
衍生相关工作
The-Tome数据集衍生了多个经典工作,其中最著名的是Arcee-Nova/Spark模型的开发。该模型通过结合The-Tome数据集与Qwen2-72B-Instruct模型,显著提升了指令跟随能力。此外,基于该数据集的研究还推动了多任务学习、模型融合等领域的发展,为后续的学术研究和工业应用提供了重要参考。
数据集最近研究
最新研究方向
在大型语言模型训练领域,The-Tome数据集因其专注于指令跟随任务而备受关注。该数据集通过整合多个公开数据集,并经过严格的筛选和评分流程,确保了数据的高质量和教育价值。近期研究显示,The-Tome在训练如Arcee-Nova/Spark等模型时表现出色,特别是在提升模型的指令理解和执行能力方面。此外,该数据集在模型融合技术中的应用,如与Qwen2-72B-Instruct的合并,展示了其在增强模型性能方面的潜力。这些进展不仅推动了指令跟随模型的发展,也为未来在更复杂任务中的应用奠定了基础。
以上内容由遇见数据集搜集并总结生成



