CLUECorpus2020

Name: CLUECorpus2020
Creator: OpenDataLab
Published: 2026-05-17 10:30:55
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/CLUECorpus2020

下载链接

链接失效反馈

官方服务：

资源简介：

By cleaning the Chinese part of Common Crawl, 100GB of high-quality Chinese pre-training corpus was finally obtained.

通过对通用爬虫（Common Crawl）中的中文部分进行清洗处理，最终获得了100GB的高质量中文预训练语料库。

提供机构：

OpenDataLab

创建时间：

2024-04-30

搜集汇总

数据集介绍

背景与挑战

背景概述

CLUECorpus2020是一个大规模中文预训练语料库，通过清理Common Crawl的中文部分获得，包含100GB高质量文本数据。该数据集专为预训练语言模型设计，由CLUE机构于2020年发布，旨在支持中文自然语言处理任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集