recycling_the_web-1k

Name: recycling_the_web-1k
Creator: MLX Community
Published: 2025-09-04 18:05:42
License: 暂无描述

Hugging Face2025-09-04 更新2025-09-05 收录

下载链接：

https://huggingface.co/datasets/mlx-community/recycling_the_web-1k

下载链接

链接失效反馈

官方服务：

资源简介：

Recycling the Web是Facebook提供的一个数据集的子集，专为MLX社区设计。这个数据集包含了经过策划的英文文本，用于增强语言模型预训练数据的质量和数量。它提供了多种大小的分片，方便用户进行实验和模型训练。

提供机构：

MLX Community

创建时间：

2025-09-04

原始信息汇总

数据集概述

基本信息

数据集名称：Recycling the Web (MLX Subsets)
维护者：Thao Nguyen
许可证：CC-BY-NC-4.0
语言：主要为英文文本
标签：合成数据、大语言模型预训练、引导重写
规模分类：1K<n<10K

数据来源

本数据集是 https://huggingface.co/datasets/facebook/recycling_the_web 的子集
原始数据集由 Meta AI (Facebook) 创建
为 MLX 社区准备，提供更小、更易管理的分片版本

可用规模

mlx-community/recycling_the_web-1k
mlx-community/recycling_the_web-100k
mlx-community/recycling_the_web-200k
mlx-community/recycling_the_web-400k
mlx-community/recycling_the_web-1m

使用示例

使用 MLX-LM

bash python -m mlx_lm.lora --train --model Qwen/Qwen3-0.6B-Base --data mlx-community/recycling_the_web-1k --num-layers 4 --iters 1000 --batch-size 1 --steps-per-report 50 --max-seq-length 1028 --adapter-path path/to/adapter

使用 MLX-LM-LoRA

bash mlx_lm_lora.train --model Qwen/Qwen3-0.6B-Base --train --data mlx-community/recycling_the_web-200k --epochs 2 --load-in-8bits --adapter-path path/to/adapter --fuse

引用信息

@article{nguyen2025recycling, title={Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models}, author={Nguyen, Thao and Li, Yang and Golovneva, Olga and Zettlemoyer, Luke and Oh, Sewoong and Schmidt, Ludwig and Li, Xian}, journal={arXiv preprint arXiv:2506.04689}, year={2025} }

联系方式

Thao Nguyen (thaottn@cs.washington.edu)

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量预训练数据的稀缺性促使研究者探索创新数据构建方法。Recycling the Web数据集通过引导式重写技术对原始网络文本进行重构，利用大型语言模型提升文本的语法连贯性和信息密度，同时保留原始语义内容。该构建过程采用多阶段过滤和优化流程，确保数据兼具规模性与质量，为语言模型预训练提供经过精细化处理的语料资源。

特点

该数据集主要呈现英语文本特征，涵盖多样化主题和语言风格，其核心优势在于经过合成数据技术处理后的高质量语言表达。数据集采用知识共享非商业许可协议，严格遵循学术使用规范，不同规模子集的设计满足从实验验证到大规模训练的多层次需求，为研究者提供了灵活可扩展的数据选择方案。

使用方法

数据集专为MLX生态系统优化集成，支持通过MLX-LM框架进行高效的语言模型微调训练。用户可通过命令行接口指定数据路径和模型参数，灵活配置训练迭代次数、批量大小和序列长度等超参数。该数据集特别适用于低秩适应（LoRA）等参数高效微调方法，能够显著提升模型训练效率并降低计算资源需求。

背景与挑战

背景概述

在大型语言模型预训练领域，数据质量与规模始终是制约模型性能提升的关键因素。Meta AI研究团队于2025年推出的recycling_the_web数据集，由Thao Nguyen等学者主导开发，旨在通过智能重写技术重构网络文本数据，提升预训练数据的质量与多样性。该数据集采用CC-by-NC许可协议，主要包含经过筛选的英文文本，为语言模型的高效预训练提供了重要资源支撑，对推动自然语言处理领域的模型优化与创新具有显著意义。

当前挑战

该数据集致力于解决语言模型预训练中数据质量参差不齐与规模受限的双重挑战，其核心在于如何从海量网络文本中筛选并重构出适合模型学习的优质语料。在构建过程中，研究团队面临网络原始数据噪声过滤、语义一致性保持以及版权合规性等多重技术难题，需要通过先进的自然语言处理技术实现自动化清洗与重构，同时确保生成文本既符合语言规范又保留原始语义的丰富性。

常用场景

经典使用场景

在大规模语言模型预训练领域，recycling_the_web-1k数据集通过引导式重写技术重构网络文本，显著提升训练数据的质量与多样性。该数据集常用于低资源环境下的模型微调实验，研究者借助其精心处理的语料库优化模型在有限计算资源下的表现，尤其在参数高效微调方法如LoRA中展现出色适应性。

解决学术问题

该数据集有效解决了网络原始文本中存在噪声、低质内容影响模型性能的学术难题。通过智能重构机制，它不仅净化了训练语料，更为研究社区提供了探讨数据质量与模型效率关联性的实验基础，推动了数据-centric的预训练范式创新，对提升语言模型的理解与生成能力具有深远意义。

衍生相关工作

围绕该数据集衍生的经典工作包括Meta AI提出的引导式重写框架及其在LLM预训练数据优化中的系统应用。后续研究多集中于结合该数据集的参数高效微调技术探索，如MLX-LM项目中的LoRA适配方案，这些工作共同推动了高效模型训练方法的发展与普及。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集