botp/yentinglin-zh_TW_c4
收藏Hugging Face2023-08-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/botp/yentinglin-zh_TW_c4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含文本、时间戳、URL和中文ID等特征,分为训练集和验证集。训练集包含5,179,546个样本,验证集包含5,099个样本。数据集主要用于文本生成任务,语言为中文,数据规模在1M到10M之间。
该数据集包含文本、时间戳、URL和中文ID等特征,分为训练集和验证集。训练集包含5,179,546个样本,验证集包含5,099个样本。数据集主要用于文本生成任务,语言为中文,数据规模在1M到10M之间。
提供机构:
botp
原始信息汇总
数据集概述
数据集基本信息
- 名称: Traditional Chinese C4
- 语言: 中文(zh)
- 任务类别: 文本生成(text-generation)
- 许可证: odc-by
- 数据集大小: 15146934044.807106 字节
- 下载大小: 5569491261 字节
- 重复自: yentinglin/zh_TW_c4
数据集特征
- text: 数据类型为字符串(string)
- timestamp: 数据类型为字符串(string)
- url: 数据类型为字符串(string)
- zh_id: 数据类型为整数(int64)
数据集分割
- 训练集(train): 包含5179546个示例,总字节数为15132113806.438198字节
- 验证集(validation): 包含5099个示例,总字节数为14820238.368907347字节
数据集类别
- 大小类别: 1M<n<10M



