erhwenkuo/c4-chinese-zhtw
收藏Hugging Face2023-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/erhwenkuo/c4-chinese-zhtw
下载链接
链接失效反馈官方服务:
资源简介:
这个繁体中文数据集来自Common Crawl的2023-14数据存档,经过清理后用于预训练语言模型。数据集包含URL、时间戳、内容语言、内容类型和清理后的文本等字段。清理过程包括下载、筛选、过滤非句子和有毒文档、去除重复文本和过度重复的文档。
这个繁体中文数据集来自Common Crawl的2023-14数据存档,经过清理后用于预训练语言模型。数据集包含URL、时间戳、内容语言、内容类型和清理后的文本等字段。清理过程包括下载、筛选、过滤非句子和有毒文档、去除重复文本和过度重复的文档。
提供机构:
erhwenkuo
原始信息汇总
数据集概述
基本信息
- 语言: 中文
- 大小: 1M<n<10M
- 任务类型:
- 文本生成
- 填充掩码
数据集特征
- 名称: c4-chinese-zhtw
- 特征:
url: 字符串类型timestamp: 字符串类型content_language: 字符串类型content_type: 字符串类型text: 字符串类型
数据集划分
- 训练集:
- 大小: 12480603148 字节
- 示例数量: 2967556
数据集大小
- 下载大小: 8659425404 字节
- 数据集大小: 12480603148 字节
数据集配置
- 配置名称: default
- 数据文件:
- 划分: 训练
- 路径: data/train-*
数据集用途
- 主要用于预训练语言模型
数据清理
- 数据清理逻辑和代码参考 c4-dataset-script
- 主要步骤包括下载、筛选、过滤、去重和重复内容移除
许可信息
- 遵循 Common Crawl 的使用条款



