five

TheGamingMahi/SimpleWikipedia-Gemma-Tokenized

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/TheGamingMahi/SimpleWikipedia-Gemma-Tokenized
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个使用Gemma tokenizer(262k词汇表)进行分词的Simple Wikipedia数据集。数据来源为wikimedia/wikipedia(20231101.simple版本),使用的tokenizer是google/gemma-4-e2b-it。总token数为75,892,771(75.9M),包含1个文件,数据结构为`tokens`(int32列表)。该数据集是Malvern训练管道的第二阶段数据集,紧随TinyStories之后。

Simple Wikipedia tokenized with the Gemma tokenizer (262k vocab). Source: wikimedia/wikipedia (20231101.simple). Tokenizer: google/gemma-4-e2b-it. Total tokens: 75,892,771 (75.9M). Files: 1. Column: `tokens` (list of int32). Part of Malvern training pipeline — Stage 2 dataset, follows TinyStories.
提供机构:
TheGamingMahi
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于2023年11月1日版本的Simple Wikipedia语料库,利用Google Gemma模型配套的tokenizer(支持262k词表)进行分词处理。原始文本经过tokenizer编码后,以int32类型的token序列形式存储于单一文件中的`tokens`列,总计包含约7590万个token。构建流程简洁高效,直指下游大语言模型训练的分词需求。
使用方法
使用时可借助Hugging Face Datasets库直接加载,提取`tokens`列中的整数序列作为模型输入。该数据集专为Malvern训练流程设计,建议在TinyStories预训练完成后,将其作为第二阶段数据对Gemma模型进行继续训练,以逐步适应更复杂的自然语言结构。加载时无需额外分词处理,直接喂入模型即可开始训练迭代。
背景与挑战
背景概述
SimpleWikipedia-Gemma-Tokenized数据集创建于2023年底,由研究社区基于Wikimedia的Simple Wikipedia语料库,采用Google的Gemma分词器(262k词汇量)进行标记化处理而成。该数据集聚焦于简化英语百科内容的语言建模,旨在为轻量级语言模型训练提供高质量、低复杂度的数据源。其核心研究问题在于如何通过简化文本与高效分词技术,提升小模型在下游任务中的泛化能力与训练效率。作为Malvern训练流水线中的第二阶段数据集,它紧随TinyStories,对于推动面向资源受限场景的语言模型研究具有重要意义,为探索精简语料与模型性能之间的平衡提供了关键基准。
当前挑战
该数据集所解决的领域问题在于,传统语言模型训练依赖大量复杂语料,导致模型参数量庞大且推理成本高昂,SimpleWikipedia-Gemma-Tokenized通过简化语言和高效分词降低了语言建模的输入复杂度,为构建轻量级模型提供了可行路径。构建过程中面临的主要挑战包括:确保简化语料在去除冗余信息的同时保留语义完整性,避免因过度简化导致知识偏失;Gemma分词器的高词汇量虽提升了表示能力,却对标记化一致性提出更高要求;此外,单一数据源与75.9M词元的规模限制,使得模型在多样化任务上的泛化能力面临不足的风险。
常用场景
经典使用场景
在自然语言处理与大规模语言模型预训练的领域中,SimpleWikipedia-Gemma-Tokenized数据集凭借其简洁而规范的英文语料,以及经Gemma分词器高效编码后的词元序列,成为研究低资源语言模型、知识注入与轻量级预训练范式的理想基石。该数据集覆盖了简单维基百科中条理清晰的科普文本,经过262k词表的分词处理后,以75.9M的丰裕词元容量,为语言模型提供了兼具内容质量和序列长度可控性的训练源。研究者常将其用作预训练流程的第二阶段素材,承接TinyStories等基础语料,以促进模型从简易叙事向正式百科知识的平滑过渡。
解决学术问题
该数据集精准回应了学术界关于语言模型预训练中数据规模与内容简洁性平衡的核心议题。它有效缓解了大规模开放语料中噪声信息过多、知识碎片化引致的语义漂移难题,同时避免了完全依赖简易故事语料所导致的知识局限性。通过提供结构清晰、表达规范的简化百科文本,SimpleWikipedia-Gemma-Tokenized助力学者在可控条件下探讨模型的知识记忆机制、词汇共现模式以及词元嵌入空间的演化规律。其标准化词元格式亦便于研究分层微调、课程学习等训练策略对模型知识习得效率的深远影响,从而推动了高效预训练范式的理论建构与实证检验。
实际应用
在实际应用层面,该数据集支撑着面向低算力环境的轻量级语言模型研发,使中小企业与学术团队能够基于有限资源训练出具备百科常识的对话系统、智能教育助手及文档摘要模型。其经预分词处理的简洁格式大幅降低了数据预处理门槛,便于快速接入各类深度学习框架进行分布式训练。此外,基于该数据集微调的语言模型在教育科技领域可生成通俗易懂的知识解释,服务于学生自适应性学习平台;在信息检索方面,则有助于构建面向青少年及非母语用户的简化问答系统,显著提升科普内容的生产效率与可读性。
数据集最近研究
最新研究方向
当前,在大型语言模型的轻量化与高效训练研究领域,SimpleWikipedia-Gemma-Tokenized数据集凭借其基于Gemma分词器(262k词表)对Simple Wikipedia语料进行预处理的独特设计,为低资源环境下的小型模型训练提供了关键支撑。该数据集常用于继TinyStories之后的第二阶段训练流程,旨在通过结构化且简洁的百科文本来强化模型的常识推理与语言简洁性。前沿方向聚焦于探索蒸馏式学习与小规模语料在可控生成任务中的潜力,如零样本摘要与知识问答。此数据集的出现推动了面向非英语母语者或资源受限场景的模型优化,对实现更民主化、更高效的自然语言处理系统具有示范意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作