recycling_the_web-100K
收藏数据集概述
基本信息
- 数据集名称: Recycling the Web (MLX Subsets)
- 提供者: MLX社区(基于Meta AI原始数据集)
- 许可证: CC-BY-NC-4.0
- 主要语言: 英语
- 数据规模: 10万到100万条样本之间
- 标签: 合成数据、LLM预训练、引导重写
数据集描述
- 本数据集是facebook/recycling_the_web数据集的子集
- 专为MLX社区准备,用于实验和训练
- 包含多个规模版本:1k、100k、200k、400k、1m
使用示例
使用MLX-LM
bash python -m mlx_lm.lora --train --model Qwen/Qwen3-0.6B-Base --data mlx-community/recycling_the_web-1k --num-layers 4 --iters 1000 --batch-size 1 --steps-per-report 50 --max-seq-length 1028 --adapter-path path/to/adapter
使用MLX-LM-LoRA
bash mlx_lm_lora.train --model Qwen/Qwen3-0.6B-Base --train --data mlx-community/recycling_the_web-200k --epochs 2 --load-in-8bits --adapter-path path/to/adapter --fuse
引用信息
如需使用Recycling the Web数据,请引用以下文献:
@article{nguyen2025recycling, title={Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models}, author={Nguyen, Thao and Li, Yang and Golovneva, Olga and Zettlemoyer, Luke and Oh, Sewoong and Schmidt, Ludwig and Li, Xian}, journal={arXiv preprint arXiv:2506.04689}, year={2025} }
联系方式
- 联系人: Thao Nguyen
- 邮箱: thaottn@cs.washington.edu




