five

ChineseWebText 中文网络文本数据集

收藏
超神经2024-03-29 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/28880
下载链接
链接失效反馈
官方服务:
资源简介:
ChineseWebText 是目前最新、最大的中文数据集,包含 1.42 TB 的数据。每个文本都被分配了一个质量分数,方便大语言模型的研究人员根据新的质量阈值选择数据。这里还发布了一个更清洁的子集,包含 600 GB 的中文文本,质量超过 90% 。该目录包含 ChineseWebText 数据集和用于处理 CommonCrawl 数据的 EvalWeb 工具链。

ChineseWebText is the latest and largest Chinese language dataset currently available, with a total data size of 1.42 TB. Each text sample is assigned a quality score, allowing researchers studying large language models (LLMs) to curate datasets based on custom quality thresholds. A cleaner curated subset has also been released, containing 600 GB of high-quality Chinese text with individual quality scores exceeding 90. This directory includes the ChineseWebText dataset and the EvalWeb toolchain for processing CommonCrawl data.
创建时间:
2024-01-10
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
ChineseWebText是目前最新、最大的中文数据集,包含1.42 TB的数据,每个文本都有质量分数,适合大语言模型研究。数据集还提供了一个质量超过90%的600 GB清洁子集,并包含处理工具链。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务