OpenSeek-PT-1T

github2025-02-14 更新2025-02-15 收录

下载链接：

https://github.com/FlagAI-Open/OpenSeek

下载链接

链接失效反馈

官方服务：

资源简介：

OpenSeek项目开源了大规模高质量的中英文数据集（>4TB），涵盖了多种数据类型和场景。这些数据集支持多样化的高质量数据合成，帮助开发者在数据层面实现创新。

The OpenSeek Project has open-sourced large-scale, high-quality Chinese-English datasets with a total size greater than 4 TB, covering diverse data types and scenarios. These datasets support diverse high-quality data synthesis, helping developers achieve innovations at the data level.

创建时间：

2025-02-14

原始信息汇总

数据集概述

数据集名称

OpenSeek

项目概述

OpenSeek 是由北京人工智能学院（BAAI）发起的开源项目，旨在团结全球开源社区，推动算法、数据和系统方面的协作创新，开发超越 DeepSeek 的下一代模型。该项目受到大型模型倡议如 Bigscience 和 OPT 的启发，致力于构建独立的开源算法创新系统。

核心目标

创新数据合成技术：解决获取高质量数据的挑战，突破数据壁垒。
支持多种 AI 芯片：减少对特定芯片的依赖，提高模型的通用性和适应性。
构建独立的开源算法创新系统：通过开源协作推动独立算法创新和技术共享。

数据集特点

开放高质量数据：开源大规模高质量中英文数据集（>4TB），涵盖多种数据类型和场景。
数据集构建计划：支持基于人类数据的高质量数据合成，帮助开发者在数据层面实现创新。

系统特点

多 AI 芯片分布式训练框架：支持多种硬件架构的分布式训练，确保不同设备的效率利用。
模型结构优化：探索不同模型大小的优化，满足不同应用场景需求。

数据来源

采用收集和筛选的开源数据集，包括 Common Crawl、Wiki、Books、Arixv、Math、Code 等领域数据。

数据合成

构建通用知识标注系统，对原始语料进行标注和过滤，合成预训练 QA 数据。
采用多种数据合成策略，包括简单 QA、长 CoT 数据、RL 数据等。

数据预处理

进行去重、基于规则的过滤和质量分类等预处理步骤。

系统框架

使用 FlagScale 作为分布式训练框架，包括前端、中间件和后端。

训练情况

第一阶段为 V3 预训练，包括数据验证模型和 OpenSeek-PT-1.3T v0.1。

许可协议

代码采用 Apache 2.0 许可。
模型权重采用 Apache 2.0 许可。
数据采用 CC BY-SA 4.0 许可。

注意：完整复现需要至少 8 个 H100 GPU，建议使用 SLURM 集群管理系统。数据集需要申请或独立生成，部分敏感数据未包含在开源包中。

搜集汇总

数据集介绍

构建方式

OpenSeek-PT-1T数据集的构建主要依托于全球开源社区的集体智慧，采用开源数据集进行收集与筛选，并结合数据合成技术，创建了大规模高质量的数据集。该数据集构建了通用知识标注系统，对原始语料进行标注和过滤，通过不同的数据合成策略生成预训练所需的QA数据，并利用奖励模型和规则验证进行数据质量筛选。

特点

OpenSeek-PT-1T数据集的特点在于开放了大规模的高质量中英文数据集，覆盖多种数据类型和场景，并提供了高质量数据集构建计划。此外，该数据集支持多种AI芯片的分布式训练框架，兼容不同硬件架构，确保了高效的设备利用率和模型通用性。

使用方法

使用OpenSeek-PT-1T数据集，用户需要准备至少8块H100 GPUs，并建议使用SLURM集群管理系统。数据集需要申请或独立生成，部分敏感数据不包含在开源包中。用户可以遵循开源协议使用代码和模型权重，同时，可以通过贡献代码、数据、算法或参与技术讨论等方式加入开源共建计划。

背景与挑战

背景概述

OpenSeek项目由北京人工智能学院（BAAI）发起，旨在团结全球开源社区，推动算法、数据与系统的协作创新，以开发超越DeepSeek的下一代模型。该项目灵感来源于大型模型计划如Bigscience和OPT，致力于构建独立的开源算法创新体系。自DeepSeek模型开源以来，学术界见证了众多算法改进和突破，但这些创新往往缺乏完整的代码实现、必要的计算资源以及高质量的数据支持。OpenSeek项目希望通过团结开源社区，探索高质量数据集构建机制，促进大型模型训练管道的开源，构建支持多种AI芯片的创新训练与推理代码，推动独立技术创新与应用发展。

当前挑战

该数据集面临的挑战主要包括：1) 数据集构建的挑战，如高质量数据的获取、打破数据壁垒；2) 模型训练的挑战，包括支持多种AI芯片、降低对特定芯片的依赖，提高模型的通用性和适应性；3) 系统效率优化的挑战，如提高分布式训练的性能，确保不同硬件平台上计算与通信的效率与稳定性。

常用场景

经典使用场景

OpenSeek-PT-1T数据集作为一项由全球开源社区共同推进的项目，其经典使用场景主要聚焦于大规模预训练模型的研发与应用。该数据集通过整合开源社区的力量，致力于构建高质量的数据集，以支持算法创新和模型训练，进而推动算法效能超越DeepSeek模型。在自然语言处理领域，该数据集被广泛应用于模型预训练，以提升模型的文本理解、生成和推理能力。

解决学术问题

该数据集解决了高质量数据获取困难、特定硬件依赖性强、以及算法创新不足等问题。OpenSeek-PT-1T不仅提供了大规模的高质量数据，还构建了独立的开源算法创新系统，支持多种AI芯片，降低了模型的硬件依赖性，为学术研究提供了丰富的数据资源和灵活的算法创新平台。

衍生相关工作

OpenSeek-PT-1T数据集的开放促进了相关经典工作的衍生，如构建了基于该数据集的多种预训练模型，开发了针对不同应用场景的优化模型结构，以及围绕数据集的合成、过滤和预处理等技术的深入研究，进一步推动了AI领域的技术创新和应用发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集