recycling_the_web-1m
收藏Hugging Face2025-09-04 更新2025-09-05 收录
下载链接:
https://huggingface.co/datasets/mlx-community/recycling_the_web-1m
下载链接
链接失效反馈官方服务:
资源简介:
Recycling the Web是一个由Meta AI创建的英文文本数据集,经过处理后形成了适用于MLX社区的多个子集。这些子集大小不同,从1k到1m不等,旨在为机器学习实验和训练提供更易于管理的数据片段。该数据集主要用于语言模型的预训练数据质量和数量的增强。
提供机构:
MLX Community
创建时间:
2025-09-04
原始信息汇总
Recycling the Web (MLX Subsets) 数据集概述
基本信息
- 许可证: CC-BY-NC-4.0
- 语言: 英语
- 标签: 合成数据、LLM预训练、引导重写
- 规模: 1M到10M之间
数据集描述
- 策划者: Thao Nguyen
- 语言: 主要为英语文本
- 许可证: CC-by-NC
可用子集
mlx-community/recycling_the_web-1kmlx-community/recycling_the_web-100kmlx-community/recycling_the_web-200kmlx-community/recycling_the_web-400kmlx-community/recycling_the_web-1m
引用信息
bibtex @article{nguyen2025recycling, title={Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models}, author={Nguyen, Thao and Li, Yang and Golovneva, Olga and Zettlemoyer, Luke and Oh, Sewoong and Schmidt, Ludwig and Li, Xian}, journal={arXiv preprint arXiv:2506.04689}, year={2025} }
联系方式
- 联系人: Thao Nguyen
- 邮箱: thaottn@cs.washington.edu
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,高质量预训练数据的稀缺性促使研究者探索创新数据构建方法。recycling_the_web-1m数据集通过引导式重写技术对原始网络文本进行重构,采用精心设计的过滤管道去除低质量内容,保留语义完整且语法规范的文本片段,最终形成规模适中、质量可控的英文语料集合。
特点
该数据集呈现出显著的合成数据特性,全部文本经过语言模型优化处理,具备高度一致的语言风格和结构规范性。其内容以英文为主,规模控制在百万级别,既满足深度学习模型训练的数据量需求,又通过质量过滤机制确保了文本的可靠性与适用性,特别适合作为大语言模型预训练的补充资源。
使用方法
研究者可通过MLX-LM框架直接加载该数据集进行模型微调训练,支持LoRA等参数高效微调方法。典型使用场景包括使用指定基座模型(如Qwen系列)配合适配器路径进行迭代训练,通过调整批次大小、序列长度等超参数来优化模型性能,适用于资源受限环境下的分布式训练与实验验证。
背景与挑战
背景概述
由Meta AI研究团队于2025年推出的recycling_the_web数据集,代表了大规模语言模型预训练数据优化领域的重要突破。该数据集由华盛顿大学研究员Thao Nguyen主导开发,旨在通过智能重写技术提升网络文本的质量与多样性,为LLM预训练提供高质量合成数据。其创新性地采用引导式重写方法,有效解决了传统网络爬取数据中存在的噪声过滤与语义保真难题,对推动语言模型训练范式的演进具有深远影响。
当前挑战
该数据集致力于攻克网络文本直接用于预训练时面临的质量参差与语义一致性难题,其核心挑战在于平衡原始文本保留与质量提升之间的张力。在构建过程中,研究团队需要设计精密的重写算法以确保文本流畅度与事实准确性的统一,同时维持百万级数据规模的处理效率。此外,版权合规性与多语言文本的标准化处理亦是不可忽视的技术壁垒。
常用场景
经典使用场景
在自然语言处理领域,recycling_the_web-1m数据集作为高质量合成数据资源,主要应用于大规模语言模型的预训练与微调过程。该数据集通过引导式重写技术对原始网络文本进行重构,显著提升了训练数据的多样性与语义密度。研究者通常将其作为基础语料,用于增强模型对复杂语言结构的理解能力与生成一致性,特别是在低资源场景下能够有效补充训练样本的不足。
解决学术问题
该数据集致力于解决语言模型预训练过程中面临的数据质量参差不齐与版权受限等核心问题。通过系统化的网络文本净化与重构机制,它不仅降低了训练数据中的噪声干扰,更在学术层面为数据稀缺情境下的模型优化提供了可行路径。其意义在于建立了可扩展的高质量语料生成范式,为后续研究提供了数据治理的新方法论,推动了大模型训练数据标准的演进。
衍生相关工作
该数据集的发布催生了多项重要研究工作,特别是在数据-centric人工智能领域。基于其构建的引导式重写技术,研究者开发了更先进的文本净化管道MetaCleaner,实现了网络文本的自动化质量提升。后续工作如SynthDataOpt框架进一步扩展了合成数据的生成范式,而DataQualityMetrics项目则建立了系统化的语料评估体系,这些衍生成果共同推动了数据治理技术的前沿发展。
以上内容由遇见数据集搜集并总结生成



