recycling_the_web-1k
收藏数据集概述
基本信息
- 数据集名称:Recycling the Web (MLX Subsets)
- 维护者:Thao Nguyen
- 许可证:CC-BY-NC-4.0
- 语言:主要为英文文本
- 标签:合成数据、大语言模型预训练、引导重写
- 规模分类:1K<n<10K
数据来源
- 本数据集是 https://huggingface.co/datasets/facebook/recycling_the_web 的子集
- 原始数据集由 Meta AI (Facebook) 创建
- 为 MLX 社区准备,提供更小、更易管理的分片版本
可用规模
- mlx-community/recycling_the_web-1k
- mlx-community/recycling_the_web-100k
- mlx-community/recycling_the_web-200k
- mlx-community/recycling_the_web-400k
- mlx-community/recycling_the_web-1m
使用示例
使用 MLX-LM
bash python -m mlx_lm.lora --train --model Qwen/Qwen3-0.6B-Base --data mlx-community/recycling_the_web-1k --num-layers 4 --iters 1000 --batch-size 1 --steps-per-report 50 --max-seq-length 1028 --adapter-path path/to/adapter
使用 MLX-LM-LoRA
bash mlx_lm_lora.train --model Qwen/Qwen3-0.6B-Base --train --data mlx-community/recycling_the_web-200k --epochs 2 --load-in-8bits --adapter-path path/to/adapter --fuse
引用信息
@article{nguyen2025recycling, title={Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models}, author={Nguyen, Thao and Li, Yang and Golovneva, Olga and Zettlemoyer, Luke and Oh, Sewoong and Schmidt, Ludwig and Li, Xian}, journal={arXiv preprint arXiv:2506.04689}, year={2025} }
联系方式
- Thao Nguyen (thaottn@cs.washington.edu)




