Zyphra/Zyda
收藏Hugging Face2024-06-19 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Zyphra/Zyda
下载链接
链接失效反馈官方服务:
资源简介:
Zyda是一个1.3T的语言建模数据集,通过收集和整合多个高质量的开源数据集,并经过统一的过滤和去重步骤创建。该数据集在语言建模任务中表现出色,尤其是在与Fineweb或Dolma结合使用时。数据集主要由七个组件组成,包括Pile Uncopyrighted、C4-en、peS2o、RefinedWeb、SlimPajama、arxiv_s2orc_parsed和StarCoder。数据集的创建过程包括过滤和去重两个阶段,使用了多种过滤器和minhash近似去重方法。
Zyda is a 1.3TB language modeling dataset constructed by collecting and integrating multiple high-quality open-source datasets, followed by unified filtering and deduplication steps. This dataset delivers excellent performance on language modeling tasks, especially when combined with Fineweb or Dolma. It primarily consists of seven components: Pile Uncopyrighted, C4-en, peS2o, RefinedWeb, SlimPajama, arxiv_s2orc_parsed, and StarCoder. The dataset creation process includes two stages: filtering and deduplication, utilizing multiple filtering tools and minhash-based approximate deduplication methods.
提供机构:
Zyphra
原始信息汇总
数据集概述
基本信息
- 数据集名称: Zyda
- 许可证: Open Data Commons License (ODC-BY)
- 任务类别: 文本生成
- 语言: 英语
- 大小类别: 大于1TB (n>1T)
数据集配置
-
默认配置:
- 分割: 训练集
- 样本数量: 1,594,197,267
- 数据文件路径:
data/*/*/*
-
其他配置:
- zyda_no_starcoder:
- 数据文件路径:
data/zyda_no_starcoder/*/*
- 数据文件路径:
- zyda_arxiv_only:
- 数据文件路径:
data/zyda_no_starcoder/zyda_arxiv/*
- 数据文件路径:
- zyda_c4-en_only:
- 数据文件路径:
data/zyda_no_starcoder/c4_en/*
- 数据文件路径:
- zyda_peS2o_only:
- 数据文件路径:
data/zyda_no_starcoder/zyda_peS2o/*
- 数据文件路径:
- zyda_pile-uncopyrighted_only:
- 数据文件路径:
data/zyda_no_starcoder/zyda_pile-uncopyrighted/*
- 数据文件路径:
- zyda_refinedweb_only:
- 数据文件路径:
data/zyda_no_starcoder/zyda_refinedweb/*
- 数据文件路径:
- zyda_slimpajama_only:
- 数据文件路径:
data/zyda_no_starcoder/zyda_slimpajama/*
- 数据文件路径:
- zyda_starcoder_only:
- 数据文件路径:
data/zyda_starcoder/*/*
- 数据文件路径:
- zyda_no_starcoder:
数据集结构
- 字段:
text: 训练文本source: 文本来源组件filtering_features: 用于过滤的预计算特征值(转换为JSON字符串)source_other: 来源数据集的元数据(转换为JSON字符串)
数据来源
Zyda 数据集由以下七个开源数据集组成:
- Pile Uncopyrighted
- C4-en
- peS2o
- RefinedWeb
- SlimPajama
- arxiv_s2orc_parsed
- StarCoder
数据收集和处理
- 处理流程: 包括过滤和去重两个阶段
- 过滤: 使用手工调整的过滤器,来源包括C4、RedPajama和Gopher等
- 去重: 使用minhash近似去重,基于13-gram和Jaccard相似度阈值0.4
个人和敏感信息
数据集可能包含未过滤的个人识别信息(PII)。
偏见、风险和限制
由于数据集包含开放网络爬取内容,可能存在偏见和有毒内容。
许可证信息
数据集遵循ODC-BY许可证,使用时还需遵守原始数据源的许可证协议和使用条款。
引用
如果使用该数据集训练模型,请引用:
@misc{tokpanov2024zyda, title={Zyda: A 1.3T Dataset for Open Language Modeling}, author={Yury Tokpanov and Beren Millidge and Paolo Glorioso and Jonathan Pilault and Adam Ibrahim and James Whittington and Quentin Anthony}, year={2024}, eprint={2406.01981}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
在语言模型预训练领域,数据质量与规模共同决定了模型的性能上限。Zyda数据集的构建遵循了严谨的集成与净化流程,其核心方法在于对七个广受认可的公开高质量数据集进行系统性采集与融合。这些源数据涵盖了学术文献、通用网页文本及代码等多种类型。构建过程采用了两阶段后处理流水线:首先,基于C4、RedPajama及Gopher等来源的规则,结合自研过滤器,对文本内容进行精细化筛选;随后,运用基于13-gram的MinHash近似去重技术,以128位的签名规模,移除了Jaccard相似度高于0.4的冗余文档,从而确保了数据集的纯净性与多样性。
特点
作为规模超过1.3万亿标记的巨型语料库,Zyda最显著的特征在于其卓越的每标记性能表现。该数据集通过精心的后处理流程,在多项经典语言建模评估任务中展现出超越同类公开数据集的潜力。其构成具有高度模块化特点,不仅提供包含所有组件的完整版本,还允许用户通过特定配置,灵活选择是否包含StarCoder代码数据,或单独加载如RefinedWeb、SlimPajama等任一子集。这种设计为研究不同数据源对模型性能的影响提供了便利。数据集内部每个样本均附有来源组件及用于过滤的预计算特征等元数据,增强了可追溯性与可分析性。
使用方法
该数据集主要服务于大规模语言模型的预训练任务。用户可通过Hugging Face的`datasets`库便捷加载。使用完整数据集时,调用`load_dataset("Zyphra/Zyda", split="train")`即可。若需排除代码数据以专注于自然语言,可指定配置名`name="zyda_no_starcoder"`。此外,研究者可根据实验需求,通过指定如`zyda_arxiv_only`、`zyda_refinedweb_only`等配置名,单独考察arXiv论文、精炼网页等特定数据源的效果。这种灵活的访问方式支持从全量训练到针对性数据组合分析等多种应用场景,为探索万亿标记尺度下的模型训练与数据构成研究提供了坚实基础。
背景与挑战
背景概述
在大型语言模型蓬勃发展的时代,高质量、大规模的训练数据成为推动模型性能突破的关键基石。Zyda数据集由Zyphra团队于2024年创建,旨在为开放语言建模提供一个经过精心筛选与去重的超大规模语料库。该数据集的核心研究问题聚焦于如何通过系统化的后处理流程,整合多个优质开源数据源,构建一个在单位token效能上超越现有公开数据集的预训练资源。其早期版本已成功应用于Zamba模型的第一阶段预训练,并在多项基准评测中展现出卓越性能,显著超越了基于Pile等数据集训练的同类模型,对推动开放、高效的语言模型研发具有重要影响力。
当前挑战
Zyda数据集致力于解决开放领域语言模型预训练中数据质量与规模难以兼得的根本挑战。具体而言,其构建过程面临双重考验:在领域问题层面,需确保海量文本在多样性、信息密度与语言规范性之间取得平衡,以提升模型在复杂语言任务上的泛化与推理能力;在构建技术层面,挑战源于对七个异构数据源进行统一的高效过滤与去重。这要求设计并实施一套精细的过滤规则与基于MinHash的近似去重算法,以剔除低质量、重复及可能包含敏感信息的内容,同时维持数据整体规模与完整性,其处理流程的复杂性与计算开销构成了显著的技术壁垒。
常用场景
经典使用场景
在大规模语言模型预训练领域,Zyda数据集以其1.3万亿令牌的庞大规模和精心的后处理流程,成为训练参数规模达万亿级别的语言模型的理想选择。该数据集通过整合多个高质量开源语料库,并执行统一的过滤与去重步骤,确保了数据在多样性与纯净度之间的平衡。其经典应用场景在于为模型提供海量、优质的文本序列,支撑从基础语言理解到复杂文本生成能力的系统性培养,尤其在模型训练的早期阶段,能够高效地奠定坚实的语言知识基础。
实际应用
在实际工业界部署中,基于Zyda数据集训练的模型展现出卓越的通用语言能力,可广泛应用于智能对话系统、代码生成、文本摘要与内容创作等下游任务。其非StarCoder变体在通用语言任务上的优异表现,使其成为构建高性能、可商用大型语言模型(LLM)的可靠数据基石。企业可利用该数据集或其特定子集(如仅含学术论文或网页内容的部分),针对性地训练服务于特定垂直领域(如科研辅助或搜索引擎优化)的专业化模型,实现从通用能力到领域专精的平滑迁移。
衍生相关工作
Zyda数据集本身即是数据工程领域的一项经典工作,其构建方法论影响了后续大规模语料库的创建思路。基于该数据集训练的代表性模型Zamba,在同等规模下展现出超越Pythia等基准模型的性能,验证了高质量数据集的效能。此外,其技术报告中详述的过滤与去重流程,为社区提供了可借鉴的标准化数据处理框架。该数据集的成功也激励了更多研究关注数据混合配比、领域平衡以及去重阈值等数据策展细节对最终模型泛化能力的影响,催生了一系列围绕数据质量评估与优化的后续研究。
以上内容由遇见数据集搜集并总结生成



