oellm-longctx-tokenized-streamed-all-v2

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/birgermoell/oellm-longctx-tokenized-streamed-all-v2

下载链接

链接失效反馈

官方服务：

资源简介：

OpenEuroLLM长上下文Megatron流式处理标记化数据集是一个用于训练Megatron-LM模型的索引数据集合。数据集以.bin和.idx格式存储，适用于长上下文训练任务。数据来源于HuggingFaceFW/finepdfs-edu，并使用特定的tokenizer进行处理。数据集包含6个Megatron数据文件，200个文档，总上传的二进制/索引字节为2,754,570。适用于在LUMI或其他高性能计算环境中进行大规模语言模型训练。

The OpenEuroLLM long-context Megatron streamed tokenized artifacts dataset is an indexed data collection for training Megatron-LM models. The dataset is stored in .bin and .idx formats and is suitable for long-context training tasks. The data originates from HuggingFaceFW/finepdfs-edu and is processed using a specific tokenizer. The dataset contains 6 Megatron data files, 200 documents, with a total uploaded binary/index byte count of 2,754,570. It is suitable for large-scale language model training in LUMI or other high-performance computing environments.

创建时间：

2026-05-08

原始信息汇总

数据集概述

基本信息

数据集名称：OpenEuroLLM long-context Megatron streamed tokenized artifacts
许可证：other（未明确指定）
任务类别：文本生成
语言：马耳他语（mt）
来源地址：https://huggingface.co/datasets/birgermoell/oellm-longctx-tokenized-streamed-all-v2

数据集描述

该数据集包含从 longctx stream-upload 按分片上传的 Megatron-LM 索引数据（.bin / .idx 文件）。它是一个用于在 LUMI 或其他机器上进行训练的传输格式，并非原始文本。

来源与配置

源数据集：HuggingFaceFW/finepdfs-edu
分词器：/home/ubuntu/birger/Megatron-Bridge-utils/tokenizers/openeurollm/tokenizer-256k
分词器类型：HuggingFaceTokenizer
Hub 仓库：birgermoell/oellm-longctx-tokenized-streamed-all-v2

数据规模

上传的 Megatron 数据文件数：6 个
文档数量：200 个
上传的二进制/索引字节数：2,754,570 字节

使用说明（以 LUMI 为例）

该数据集专为在 LUMI 上训练设计，可通过 longctx.cli 工具下载，并设置环境变量 MULTILINGUAL_DIR 和 DATA_PATH。其中 mix/data_path.args 文件包含多个带权重的 Megatron 前缀，这是增量上传的结果，用于保持源机器磁盘低用量。

搜集汇总

数据集介绍

构建方式

OpenEuroLLM长上下文数据集的构建源于对`HuggingFaceFW/finepdfs-edu`源数据的高效转换与传输。该数据集采用Megatron-LM框架对原始文本进行流式分片标记化，生成二进制的`.bin`与索引`.idx`格式文件。利用`longctx stream-upload`工具，将处理后数据按分片逐一上传至HuggingFace仓库，共包含6个数据文件，涵盖200个文档。标记化过程使用了专用的256K词汇表分词器，确保了多语言文本的有效编码。整个流程旨在优化存储占用与传输效率，为大规模分布式训练提供标准化输入格式。

使用方法

数据集主要面向LUMI等高性能计算环境中的模型训练。使用时，首先通过`longctx.cli artifacts download`命令下载仓库中的全部二进制分片至指定目录。随后，环境变量`MULTILINGUAL_DIR`需指向该目录，并借助`cat`命令从`mix/data_path.args`文件中解析出加权数据路径列表。这些路径可直接传递给Megatron-LM的训练脚本，作为`DATA_PATH`参数，驱动长上下文语言模型的训练过程。由于数据已预分片，无需额外预处理，显著降低了使用门槛。

背景与挑战

背景概述

OpenEuroLLM long-context Megatron streamed tokenized artifacts（oellm-longctx-tokenized-streamed-all-v2）数据集由Birger Moell等人于近期创建，旨在支持大规模多语言语言模型的长上下文训练。该数据集源自HuggingFace FineWeb的过滤子集finepdfs-edu，通过Megatron-LM框架对200篇文档进行分词和索引化处理，生成二进制（.bin/.idx）格式的流式传输文件，专为在LUMI超级计算机等分布式环境下的高效训练而设计。其核心研究问题在于克服长序列数据在跨节点传输和存储中的性能瓶颈，为OpenEuroLLM等开放多语言模型提供标准化、可扩展的训练基础设施。该数据集对多语言自然语言处理领域具有重要影响，尤其推动了长上下文、低资源语言及教育类文档建模的研究进展。

当前挑战

该数据集主要解决两方面的挑战。在领域问题层面，长上下文语言模型训练面临内存瓶颈与计算效率低下，传统数据格式难以支持大规模序列的分布式处理，需要高效的分词和索引化方案来维持训练稳定性。在构建过程中，数据需从远程HuggingFace仓库流式上传至LUMI，面临网络传输延迟和磁盘空间限制；同时，200篇文档的增量上传策略虽降低了源机器存储压力，却引入了数据分片管理复杂性，必须通过混合权重文件（data_path.args）动态合并多个前缀，以确保训练时数据流的一致性和完整性。

常用场景

经典使用场景

在自然语言处理与大规模语言模型训练的前沿领域，长上下文处理能力已成为衡量模型性能的关键指标。oellm-longctx-tokenized-streamed-all-v2 数据集专为 Megatron-LM 框架设计，提供经过分词与索引化的二进制文件（.bin/.idx），其核心用途在于支持超长序列的分布式训练。该数据集源自 HuggingFaceFW/finepdfs-edu 语料库，涵盖教育类精细PDF文档，包含200篇长文档，经过专用256k词表分词器处理，能够有效训练模型捕捉长距离依赖关系，是研究长上下文建模、高效分布式训练数据流传输的经典数据资源。

解决学术问题

学术界在处理超长文本序列时长期面临计算资源瓶颈与数据切分效率低下的挑战。该数据集通过增量式流式上传机制，解决了大规模分布式训练场景下数据存储与传输的碎片化问题，使研究人员能够在LUMI等高性能计算集群上无缝加载并训练模型。其核心贡献在于推动了长上下文语言模型的训练基础设施优化，使教育领域长文档的语义理解、跨段落推理等学术问题得以突破，为探索超长序列下的模型记忆容量、注意力机制效率提供了标准化实验平台，显著降低了长文本研究的入门门槛。

实际应用

在实际工程落地中，该数据集主要服务于欧洲多语言大模型OpenEuroLLM的持续训练流程，特别是在需要处理长篇教育文献、学术论文或技术文档的场景下发挥关键作用。通过Megatron-LM框架的流式数据管道，企业或研究机构能够高效地在分布式集群上迭代模型版本，减少本地存储压力。典型应用包括智能教育辅助系统中的长文档理解、跨语言学术知识库构建、以及需要记忆长上下文的对话系统开发。其流式传输设计使得数据动态加载成为可能，为实时更新训练数据提供了工程范式。

数据集最近研究