five

YCWTG/wikipedia_zh_cleaned_latest

收藏
Hugging Face2025-12-17 更新2025-11-15 收录
下载链接:
https://hf-mirror.com/datasets/YCWTG/wikipedia_zh_cleaned_latest
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是2025年9月22日维基百科中文版本的快照,经过深度清洗,用于预训练等文本生成相关的模型训练。与仅经过基础清洗的数据集相比,本数据集体积更小,文本内容更易理解,且更符合中文语境。

This dataset is a snapshot of the Chinese version of Wikipedia from September 22, 2025, which has been thoroughly cleaned for use in pre-training and other text generation-related model training. Compared to the dataset that has only undergone basic cleaning, this dataset is smaller in size, the text is more understandable, and it is more suitable for the Chinese context.
提供机构:
YCWTG
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是基于2025年12月11日维基百科中文快照清洗得到的文本生成数据集,包含约118万条数据,总大小3.46GB。通过多重工序(如去除HTML标签、引用内容和非必要符号)优化文本质量,保留代码块和数学公式,更符合中文语境,适用于预训练等模型任务,遵循CC BY-SA 4.0和GFDL许可。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作