jed351/Traditional-Chinese-Common-Crawl-Filtered
收藏Hugging Face2025-09-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jed351/Traditional-Chinese-Common-Crawl-Filtered
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从2023年14月的Common Crawl中获取的,经过处理后包含简体和繁体中文。通过一个修改过的简体中文字符列表进行过滤,最终得到了这个繁体中文数据集。
提供机构:
jed351
原始信息汇总
数据集概述
数据集名称
Traditional Chinese C4
数据来源
- 数据获取自2023-14 Common Crawl。
数据处理
- 数据下载和处理使用了基于另一个项目的代码,该项目尝试重现C4数据集。相关代码和项目链接如下:
数据集内容
- 原始数据集包含简体和繁体中文。
- 通过使用修改后的简体中文字符列表进行过滤,以获得繁体中文数据集。过滤列表链接:https://github.com/jedcheng/c4-dataset-script/blob/master/SC_filter/SC_list.txt



