YCWTG/wikipedia_zh_cleaned_latest
收藏Hugging Face2025-12-17 更新2025-11-15 收录
下载链接:
https://hf-mirror.com/datasets/YCWTG/wikipedia_zh_cleaned_latest
下载链接
链接失效反馈官方服务:
资源简介:
本数据集是2025年9月22日维基百科中文版本的快照,经过深度清洗,用于预训练等文本生成相关的模型训练。与仅经过基础清洗的数据集相比,本数据集体积更小,文本内容更易理解,且更符合中文语境。
This dataset is a snapshot of the Chinese version of Wikipedia from September 22, 2025, which has been thoroughly cleaned for use in pre-training and other text generation-related model training. Compared to the dataset that has only undergone basic cleaning, this dataset is smaller in size, the text is more understandable, and it is more suitable for the Chinese context.
提供机构:
YCWTG
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是基于2025年12月11日维基百科中文快照清洗得到的文本生成数据集,包含约118万条数据,总大小3.46GB。通过多重工序(如去除HTML标签、引用内容和非必要符号)优化文本质量,保留代码块和数学公式,更符合中文语境,适用于预训练等模型任务,遵循CC BY-SA 4.0和GFDL许可。
以上内容由遇见数据集搜集并总结生成



