five

Tralalabs/CC-Clean-2026-04

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Tralalabs/CC-Clean-2026-04
下载链接
链接失效反馈
官方服务:
资源简介:
CC-Clean-2026-04是一个经过清洗的Common Crawl数据集子集,包含从Common Crawl的CC-MAIN-2026-04快照(2026年1月)中随机抽取的10,211个高质量英文网页文档。这些文档经过了多阶段的过滤流程,包括语言过滤(仅英文,最小置信度0.70)、NSFW内容过滤(包括显式词汇模式、域名黑名单和特定TLDs)以及质量过滤(基于长度、字符比例、行长度等启发式规则)。数据集以Parquet格式存储,适用于小型语言模型的预训练、自定义分词器训练以及语言建模研究。数据集还提供了详细的统计信息、过滤流程、使用意图、限制和伦理考虑等内容。

CC-Clean-2026-04 is a cleaned subset of the Common Crawl snapshot CC-MAIN-2026-04 (January 2026), containing 10,211 high-quality English web documents randomly sampled from 10 WET segments. The documents have undergone a multi-stage filtering pipeline including language filtering (English only, minimum confidence 0.70), NSFW content filtering (explicit word patterns, domain blocklists, and specific TLDs), and quality filtering (based on length, character ratios, line length heuristics, etc.). The dataset is stored in Parquet format and is suitable for pretraining small language models, training custom tokenizers, and research on language modeling. The README provides detailed statistics, filtering pipeline, intended use cases, limitations, and ethical considerations.
提供机构:
Tralalabs
搜集汇总
数据集介绍
main_image_url
构建方式
CC-Clean-2026-04数据集源自Common Crawl于2026年1月发布的CC-MAIN-2026-04快照,由Tralalabs在Mayo 2026 Tramo发布周期中精心构建。数据集的构建首先通过设定固定的随机种子2026,从该快照的全部WET路径中均匀抽取10个片段,确保了采样过程的可复现性。随后,原始文档经历了一个多阶段级联过滤流程:第一层采用fastText的lid.176模型进行语言识别,仅保留英语且置信度不低于0.70的文档;第二层基于超过60个显式单词模式、25个不良域名黑名单及特定顶级域与子域规则,彻底剔除NSFW内容;第三层汲取Gopher与RefinedWeb的经验,依据文档字符长度、字母比例、非字母数字比例、数字比例、平均行长度、短行比例、最小非空行数、重复行比例以及样板文本检测等多项启发式指标进行质量筛选;最后,对通过前述所有检验的文档,计算其前5KB文本的SHA256哈希值,实施批量内的精确去重。整个流程从227,744条原始记录中精炼出10,211条高质量文档,仅有4.5%的保留率,最终以单个zstd压缩等级6的Parquet文件形式存储,高效且易于使用。
特点
该数据集的核心特色在于其卓越的纯净度与实用性。所有文档均经过严格的语言与NSFW双重筛查,并引入多维度质量启发式指标,有效滤除了机器生成的低质内容、模板页与噪音文本,从而保证了语料的语义连贯性与信息密度。数据集精心记录了每条文档的URL、域名、语言置信度、字符数及所属快照版本,便于研究者追溯源并进行细致的元数据驱动筛选。其规模适中,包含约10,211篇英文文档,平均长度约2,000字符,预计可产生5至6百万个BPE子词,尤其适合用于从头预训练小型语言模型或训练专属的BPE及SentencePiece分词器。值得注意的是,该数据集采用的保守过滤策略保留了原始网络文本的真实面貌,虽存在SEO内容和噪音,但也避免了过度清理导致的信息损失,使其成为研究数据筛选与语言建模领域的理想基准资源。
使用方法
CC-Clean-2026-04数据集的使用极为便捷,开发者可直接通过Hugging Face的datasets库进行加载。仅需调用load_dataset('Tralalabs/CC-Clean-2026-04', split='train')一行代码,即可获得包含'url'、'domain'、'lang'、'lang_conf'、'n_chars'、'text'及'snapshot'七个特征字段的数据集对象,其中'text'字段为完整的文档正文。对于内存敏感的应用,推荐采用流式加载方式,逐条读取样本进行分词与模型训练。由于数据以单个shard形式提供,并未预设训练/验证集划分,建议研究者在使用前根据自身任务需求手动分割数据集。此外,若需进行跨快照的混合训练,或进一步剔除残余的有害内容,使用者可自行引入MinHash去重或集成更全面的不良词表。该数据集适用于从零开始的预训练、分词器训练、持续预训练以及数据策展研究等多种下游场景。
背景与挑战
背景概述
随着大规模语言模型(LLM)的蓬勃发展,高质量、大规模的文本预训练语料库成为推动模型性能提升的关键资源。Common Crawl作为互联网公开爬取数据的最大来源之一,尽管提供了海量的原始网页文本,但其内容混杂着多语言、低质量、噪音及不适宜内容,亟需精细化的数据清洗与筛选。在此背景下,Tralalabs于2026年发布了CC-Clean-2026-04数据集,该数据集基于Common Crawl在2026年1月的快照CC-MAIN-2026-04,通过随机采样10个WET段,经由严格的过滤流水线生成,最终仅保留10,211篇高质量英文文档。作为Mayo 2026 Tramo发布浪潮的一部分,该数据集专门面向小规模语言模型的预训练与分词器训练,为数据清洗与语言建模研究提供了标准化的高质量基准,对推动开放、可复现的NLP研究具有示范意义。
当前挑战
该数据集的核心挑战在于应对原始网络爬取文本的极端异质性。首先,在领域问题层面,需要解决非英语内容占比巨大(原始数据中仅英语及其他少数语种即可占绝大多数过滤量)、NSFW(色情、暴力等不适宜内容)泛滥以及SEO操纵文本和模板化内容(导航段落、垃圾信息)的普遍存在,这些因素严重干扰模型的语言表征学习。其次,在构建过程的挑战中,过滤流水线的设计需兼顾效率与精度:采用fastText语言模型进行语种判别,设定0.70置信度阈值虽能有效筛选英语,但仍可能误判或遗漏混合语言文档;NSFW过滤依赖正规模式与域名黑名单,但种子词表的不完备性可能导致漏检;质量过滤受Gopher和RefinedWeb启发,但诸如重复行比例、非字母数字比率等启发式规则在极端文本上可能误伤合法内容;此外,批次内去重仅基于前5KB的SHA256哈希值,无法有效处理跨文档的语义相似或片段级重复。这些挑战共同导致仅4.5%的极低保留率,如何在保留数据多样性的同时提升过滤精度,是当前数据清洗研究中的核心难题。
常用场景
经典使用场景
CC-Clean-2026-04数据集源自Common Crawl在2026年1月的大规模网页快照,经过严谨的多阶段过滤流水线,精选出10,211篇高质量英文网页文本。该数据集最经典的用途在于从零开始预训练小型语言模型,例如Tralalabs配套发布的PicoLM-6M-Mayo即以此为基础进行训练。同时,它也广泛用于训练自定义的BPE或SentencePiece分词器,帮助研究人员在资源受限的场景下高效构建语言模型的基础组件。数据集的轻量级特性(仅27.5 MB)使其成为快速验证预训练流程和对比过滤策略实验的理想选择。
实际应用
在实际应用中,CC-Clean-2026-04可作为快速原型开发的数据基石,支持研究者在不依赖大规模计算资源的情况下迭代分词器和轻量级语言模型。针对需要从网络文本中持续预训练已有模型的场景,该数据集提供了可直接使用的干净语料,降低了数据清洗的工程负担。其单文件Parquet格式易于流式加载,适合部署在内存受限的本地环境或云端实例中,加速从数据探索到模型部署的全链路实验流程。
衍生相关工作
围绕该数据集,Tralalabs在Mayo 2026 Tramo发布周期内衍生出多项代表性工作,其中最引人注目的是PicoLM-6M-Mayo——一个基于GPT架构的微型语言模型。该数据集还与同期发布的Mayo-2026-Brainrot-Corpus形成互补资源,共同支撑关于数据曲线与模型行为关联性的实证研究。此外,数据集的过滤流水线设计也启发了后续工作,促使研究者探索将NSFW检测与教育性质量分类器(如FineWeb-Edu)进行多层级级联的混合文档筛选策略。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作