liswei/common-crawl-zhtw
收藏Hugging Face2024-05-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/liswei/common-crawl-zhtw
下载链接
链接失效反馈官方服务:
资源简介:
Common Crawl Traditional Chinese数据集是一个去重后的中文文本数据集,用于文本生成和填充掩码任务。数据集包含url、时间戳、内容语言、内容类型和文本等特征。数据集已经通过MinHash算法去重,建议在使用前通过自然语言理解模型进行过滤。
Common Crawl Traditional Chinese数据集是一个去重后的中文文本数据集,用于文本生成和填充掩码任务。数据集包含url、时间戳、内容语言、内容类型和文本等特征。数据集已经通过MinHash算法去重,建议在使用前通过自然语言理解模型进行过滤。
提供机构:
liswei
原始信息汇总
数据集概述
数据集名称
Common Crawl Traditional Chinese
数据集特征
- url:字符串类型
- timestamp:时间戳类型,单位为秒
- content_language:字符串类型
- content_type:字符串类型
- text:字符串类型
数据集分割
- 训练集:包含2712675个样本,总大小为11493845763字节
数据集大小
- 下载大小:8022154152字节
- 数据集总大小:11493845763字节
语言
- 繁体中文(zht)
- 简体中文(zh)
任务类别
- 文本生成
- 填空补全
数据集规模
- 1M<n<10M



