p208p2002/c4-chinese-zhtw-light-filtered
收藏Hugging Face2024-06-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/p208p2002/c4-chinese-zhtw-light-filtered
下载链接
链接失效反馈官方服务:
资源简介:
此数据集使用huggingface/datatrove进行了系统性的数据清洗。在清洗过程中应用了多种基于规则的过滤方法,移除许多过短、重复和含有噪声的数据。
此数据集使用huggingface/datatrove进行了系统性的数据清洗。在清洗过程中应用了多种基于规则的过滤方法,移除许多过短、重复和含有噪声的数据。
提供机构:
p208p2002
原始信息汇总
数据集概述
数据集名称
- c4-chinese-zhtw-light-filtered
配置信息
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data.parquet
语言
- 中文 (zh)
数据处理
- 使用 huggingface/datatrove 进行系统性的数据清洗。
- 应用了多种基于规则的过滤方法,移除了过短、重复和含有噪声的数据。



