OpenSeek-PT-1T
收藏github2025-02-14 更新2025-02-15 收录
下载链接:
https://github.com/FlagAI-Open/OpenSeek
下载链接
链接失效反馈官方服务:
资源简介:
OpenSeek项目开源了大规模高质量的中英文数据集(>4TB),涵盖了多种数据类型和场景。这些数据集支持多样化的高质量数据合成,帮助开发者在数据层面实现创新。
The OpenSeek Project has open-sourced large-scale, high-quality Chinese-English datasets with a total size greater than 4 TB, covering diverse data types and scenarios. These datasets support diverse high-quality data synthesis, helping developers achieve innovations at the data level.
创建时间:
2025-02-14
原始信息汇总
数据集概述
数据集名称
OpenSeek
项目概述
OpenSeek 是由北京人工智能学院(BAAI)发起的开源项目,旨在团结全球开源社区,推动算法、数据和系统方面的协作创新,开发超越 DeepSeek 的下一代模型。该项目受到大型模型倡议如 Bigscience 和 OPT 的启发,致力于构建独立的开源算法创新系统。
核心目标
- 创新数据合成技术:解决获取高质量数据的挑战,突破数据壁垒。
- 支持多种 AI 芯片:减少对特定芯片的依赖,提高模型的通用性和适应性。
- 构建独立的开源算法创新系统:通过开源协作推动独立算法创新和技术共享。
数据集特点
- 开放高质量数据:开源大规模高质量中英文数据集(>4TB),涵盖多种数据类型和场景。
- 数据集构建计划:支持基于人类数据的高质量数据合成,帮助开发者在数据层面实现创新。
系统特点
- 多 AI 芯片分布式训练框架:支持多种硬件架构的分布式训练,确保不同设备的效率利用。
- 模型结构优化:探索不同模型大小的优化,满足不同应用场景需求。
数据来源
- 采用收集和筛选的开源数据集,包括 Common Crawl、Wiki、Books、Arixv、Math、Code 等领域数据。
数据合成
- 构建通用知识标注系统,对原始语料进行标注和过滤,合成预训练 QA 数据。
- 采用多种数据合成策略,包括简单 QA、长 CoT 数据、RL 数据等。
数据预处理
- 进行去重、基于规则的过滤和质量分类等预处理步骤。
系统框架
- 使用 FlagScale 作为分布式训练框架,包括前端、中间件和后端。
训练情况
- 第一阶段为 V3 预训练,包括数据验证模型和 OpenSeek-PT-1.3T v0.1。
许可协议
- 代码采用 Apache 2.0 许可。
- 模型权重采用 Apache 2.0 许可。
- 数据采用 CC BY-SA 4.0 许可。
注意:完整复现需要至少 8 个 H100 GPU,建议使用 SLURM 集群管理系统。数据集需要申请或独立生成,部分敏感数据未包含在开源包中。
搜集汇总
数据集介绍

构建方式
OpenSeek-PT-1T数据集的构建主要依托于全球开源社区的集体智慧,采用开源数据集进行收集与筛选,并结合数据合成技术,创建了大规模高质量的数据集。该数据集构建了通用知识标注系统,对原始语料进行标注和过滤,通过不同的数据合成策略生成预训练所需的QA数据,并利用奖励模型和规则验证进行数据质量筛选。
特点
OpenSeek-PT-1T数据集的特点在于开放了大规模的高质量中英文数据集,覆盖多种数据类型和场景,并提供了高质量数据集构建计划。此外,该数据集支持多种AI芯片的分布式训练框架,兼容不同硬件架构,确保了高效的设备利用率和模型通用性。
使用方法
使用OpenSeek-PT-1T数据集,用户需要准备至少8块H100 GPUs,并建议使用SLURM集群管理系统。数据集需要申请或独立生成,部分敏感数据不包含在开源包中。用户可以遵循开源协议使用代码和模型权重,同时,可以通过贡献代码、数据、算法或参与技术讨论等方式加入开源共建计划。
背景与挑战
背景概述
OpenSeek项目由北京人工智能学院(BAAI)发起,旨在团结全球开源社区,推动算法、数据与系统的协作创新,以开发超越DeepSeek的下一代模型。该项目灵感来源于大型模型计划如Bigscience和OPT,致力于构建独立的开源算法创新体系。自DeepSeek模型开源以来,学术界见证了众多算法改进和突破,但这些创新往往缺乏完整的代码实现、必要的计算资源以及高质量的数据支持。OpenSeek项目希望通过团结开源社区,探索高质量数据集构建机制,促进大型模型训练管道的开源,构建支持多种AI芯片的创新训练与推理代码,推动独立技术创新与应用发展。
当前挑战
该数据集面临的挑战主要包括:1) 数据集构建的挑战,如高质量数据的获取、打破数据壁垒;2) 模型训练的挑战,包括支持多种AI芯片、降低对特定芯片的依赖,提高模型的通用性和适应性;3) 系统效率优化的挑战,如提高分布式训练的性能,确保不同硬件平台上计算与通信的效率与稳定性。
常用场景
经典使用场景
OpenSeek-PT-1T数据集作为一项由全球开源社区共同推进的项目,其经典使用场景主要聚焦于大规模预训练模型的研发与应用。该数据集通过整合开源社区的力量,致力于构建高质量的数据集,以支持算法创新和模型训练,进而推动算法效能超越DeepSeek模型。在自然语言处理领域,该数据集被广泛应用于模型预训练,以提升模型的文本理解、生成和推理能力。
解决学术问题
该数据集解决了高质量数据获取困难、特定硬件依赖性强、以及算法创新不足等问题。OpenSeek-PT-1T不仅提供了大规模的高质量数据,还构建了独立的开源算法创新系统,支持多种AI芯片,降低了模型的硬件依赖性,为学术研究提供了丰富的数据资源和灵活的算法创新平台。
衍生相关工作
OpenSeek-PT-1T数据集的开放促进了相关经典工作的衍生,如构建了基于该数据集的多种预训练模型,开发了针对不同应用场景的优化模型结构,以及围绕数据集的合成、过滤和预处理等技术的深入研究,进一步推动了AI领域的技术创新和应用发展。
以上内容由遇见数据集搜集并总结生成



