five

parameter-golf-byte260

收藏
Hugging Face2026-04-04 更新2026-04-05 收录
下载链接:
https://huggingface.co/datasets/nicholasbailey87/parameter-golf-byte260
下载链接
链接失效反馈
官方服务:
资源简介:
Parameter Golf FineWeb 10B - Byte260 Tokenization 是一个字节级标记化的 FineWeb 10B 数据集版本,专为 Parameter Golf 竞赛准备。该数据集使用 byte260 标记器,包含 256 个 UTF-8 字节标记和 4 个特殊标记(pad=0, bos=1, eos=2, unk=3),标记 ID 为字节值加 4。数据集总规模为 15,368,808 个文档和 47,722,765,993 个标记,分为训练集(15,318,808 个文档,47,571,635,348 个标记,476 个分片)和验证集(50,000 个文档,151,130,645 个标记,2 个分片)。数据以二进制分片形式存储(uint16,小端序),每个分片包含约 1 亿个标记,并带有 1024 字节的头部信息。数据集适用于文本生成任务,可通过提供的命令下载和使用。
创建时间:
2026-04-04
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Parameter Golf FineWeb 10B - Byte260 Tokenization
  • 许可证: MIT
  • 任务类别: 文本生成
  • 语言: 英语
  • 规模类别: 10B < n < 100B

描述

  • 该数据集是 FineWeb 10B 数据集的字节级分词版本,专为 Parameter Golf 竞赛准备。
  • 创建原因是原 HuggingFace 仓库仅提供 fineweb10B_sp1024 版本。

分词器

  • 名称: byte260
  • 词汇表大小: 260
  • 构成: 256个UTF-8字节令牌 + 4个特殊令牌(pad=0, bos=1, eos=2, unk=3)
  • 编码规则: 令牌ID = 字节值 + 4
  • 特性: 每个令牌精确代表1个字节

数据集统计

分割 文档数量 令牌数量 分片数量
训练集 15,318,808 47,571,635,348 476
验证集 50,000 151,130,645 2
总计 15,368,808 47,722,765,993 478

文件格式

  • 格式: 二进制分片(uint16,小端序)
  • 头部结构: 1024字节头部,包含:
    • Header[0]: 魔数 = 20240520
    • Header[1]: 版本 = 1
    • Header[2]: 分片中的令牌数量
  • 数据部分: 头部之后为uint16类型的令牌数据
  • 分片大小: 每个分片包含约1亿个令牌(最后一个分片可能较小)

使用方法

通过Parameter Golf数据加载器下载:

bash python data/cached_challenge_fineweb.py --variant byte260 --train-shards 80

通过环境变量指定数据集仓库:

bash export MATCHED_FINEWEB_REPO_ID=nicholasbailey87/parameter-golf-byte260 export MATCHED_FINEWEB_REMOTE_ROOT_PREFIX="" python data/cached_challenge_fineweb.py --variant byte260 --train-shards 80

数据来源

  • 源数据集: willdepueoai/parameter-golf 中的 docs_selected.jsonl 文件
  • 生成工具: 使用 data/download_hf_docs_and_tokenize.py 脚本配合纯字节分词器配置生成

注意事项

  • 数据集创建者表示其功能正常,但建议用户自行承担使用风险。
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,大规模预训练语料库的构建是推动模型性能提升的关键。Parameter Golf FineWeb 10B - Byte260 Tokenization数据集源自FineWeb 10B原始语料,通过字节级分词技术重构而成。具体而言,开发者利用自定义脚本处理原始JSONL格式文档,采用纯字节分词器配置,将每个UTF-8字节映射为独立标记,并添加少量特殊标记以支持模型训练需求。数据最终被分割为多个二进制分片,每个分片包含约一亿标记,并附带元数据头部,确保了高效存储与读取。
特点
该数据集的核心特征体现在其极简的分词策略与大规模高质量语料上。分词器仅包含260个词汇,其中256个对应UTF-8字节值,其余为填充、起始、终止及未知标记,这种设计显著降低了词汇复杂性,便于模型学习底层字节模式。数据集规模庞大,训练部分包含超过470亿标记,验证集亦具备代表性,总计近480亿标记,覆盖了广泛的英文文本内容。二进制分片格式与轻量级头部结构进一步优化了数据加载效率,为大规模语言模型训练提供了稳定基础。
使用方法
为有效利用该数据集进行模型训练,用户可通过专用数据加载脚本便捷访问。在命令行环境中,指定字节260变体并设置训练分片数量,即可自动下载并预处理数据。若需自定义数据源路径,可通过环境变量指向本仓库,实现灵活配置。数据集以分片形式组织,支持流式读取,适合分布式训练框架。用户需确保运行环境符合脚本依赖,并注意分片头部的小端序uint16格式,以正确解析标记序列。
背景与挑战
背景概述
在自然语言处理领域,大规模预训练数据集是推动语言模型性能突破的关键基石。Parameter Golf FineWeb 10B - Byte260 Tokenization 数据集于2024年发布,由开源社区贡献者基于FineWeb 10B原始语料构建,专为Parameter Golf竞赛设计。该数据集采用字节级分词策略,将UTF-8字节与特殊标记结合,形成仅包含260个词汇的极简词表,旨在探索在极端压缩的词表下语言模型的表示能力与训练效率。其核心研究问题聚焦于如何通过低维度词表实现高效的语言建模,为模型架构优化与分词策略创新提供了重要的实验平台,对轻量化语言模型的研究方向产生了积极影响。
当前挑战
该数据集致力于解决语言模型预训练中词表设计与数据表示效率的挑战。传统词表通常包含数万乃至数十万词汇,而Byte260仅使用260个标记,这要求模型必须在极低的信息密度下学习丰富的语言结构,对模型的表示能力和泛化性能构成了严峻考验。在构建过程中,挑战主要源于字节级分词的数据对齐与一致性处理,需确保原始文本到字节序列的转换无损且高效,同时处理大规模语料的分片存储与加载优化,以支持分布式训练环境下的稳定数据流水线。
常用场景
经典使用场景
在语言模型预训练领域,大规模文本数据集是模型性能提升的基石。Parameter Golf FineWeb 10B - Byte260 Tokenization数据集以其独特的字节级分词方式,为研究者提供了一个纯净且高效的训练资源。该数据集最经典的使用场景是作为参数高尔夫竞赛的核心训练数据,参赛者需在此数据集上训练模型,以探索在极简词汇表下语言模型的性能极限。其字节级分词策略使得模型能够直接处理原始字节流,避免了传统分词器引入的偏差,为研究模型在低资源设置下的泛化能力提供了理想平台。
实际应用
在实际应用中,该数据集为开发轻量级且高效的语言模型提供了关键支持。其字节级特性使得模型能够无缝处理多语言文本、代码或混合格式数据,无需针对不同语言或领域定制分词器。这尤其适用于边缘计算设备或资源受限环境,其中模型需要以最小的存储和计算开销运行。例如,在移动设备上的实时翻译系统或嵌入式智能助手中,基于此类数据集训练的模型能够以更低的延迟和能耗提供稳定的语言理解服务,促进了人工智能技术在广泛场景中的普惠化部署。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在模型架构优化与训练策略创新。参数高尔夫竞赛本身催生了一系列针对极简词汇表的高效训练方法,例如改进的优化器配置与正则化技术。同时,该数据集的字节级分词特性启发了对字节级语言模型的深入研究,如ByT5和CANINE等模型,它们证明了直接处理字节序列在多语言任务上的竞争优势。这些工作不仅验证了极简分词方案的有效性,还推动了语言模型向更通用、更数据高效的方向演进,为后续的大规模预训练研究提供了重要的方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作