five

erhwenkuo/c4-chinese-zhtw

收藏
Hugging Face2023-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/erhwenkuo/c4-chinese-zhtw
下载链接
链接失效反馈
官方服务:
资源简介:
这个繁体中文数据集来自Common Crawl的2023-14数据存档,经过清理后用于预训练语言模型。数据集包含URL、时间戳、内容语言、内容类型和清理后的文本等字段。清理过程包括下载、筛选、过滤非句子和有毒文档、去除重复文本和过度重复的文档。

这个繁体中文数据集来自Common Crawl的2023-14数据存档,经过清理后用于预训练语言模型。数据集包含URL、时间戳、内容语言、内容类型和清理后的文本等字段。清理过程包括下载、筛选、过滤非句子和有毒文档、去除重复文本和过度重复的文档。
提供机构:
erhwenkuo
原始信息汇总

数据集概述

基本信息

  • 语言: 中文
  • 大小: 1M<n<10M
  • 任务类型:
    • 文本生成
    • 填充掩码

数据集特征

  • 名称: c4-chinese-zhtw
  • 特征:
    • url: 字符串类型
    • timestamp: 字符串类型
    • content_language: 字符串类型
    • content_type: 字符串类型
    • text: 字符串类型

数据集划分

  • 训练集:
    • 大小: 12480603148 字节
    • 示例数量: 2967556

数据集大小

  • 下载大小: 8659425404 字节
  • 数据集大小: 12480603148 字节

数据集配置

  • 配置名称: default
  • 数据文件:
    • 划分: 训练
    • 路径: data/train-*

数据集用途

  • 主要用于预训练语言模型

数据清理

  • 数据清理逻辑和代码参考 c4-dataset-script
  • 主要步骤包括下载、筛选、过滤、去重和重复内容移除

许可信息

  • 遵循 Common Crawl 的使用条款
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作