Cantonese-Web-Data
收藏Hugging Face2025-08-23 更新2025-08-24 收录
下载链接:
https://huggingface.co/datasets/jed351/Cantonese-Web-Data
下载链接
链接失效反馈官方服务:
资源简介:
这是一个针对粤语的大型、经过良好策划和去重的网络数据集,包含大约200K个独特的文档,含有约1.5亿个单词。它是通过过滤多年Common Crawl数据和使用粤语语言检测器创建的,并且使用了MinHash去重过程。
创建时间:
2025-08-17
原始信息汇总
数据集概述
基本描述
- 语言:中文(zh)、粤语(yue)
- 资源类型:大规模网络文本数据集
- 主要目标:改善粤语在自然语言处理中的低资源现状
数据集规模
- 文档数量:约20万篇唯一文档
- 词汇总量:约1.5亿词
- 数据来源时间范围:2020年至2025年Common Crawl存档
质量控制
- 去重处理:采用MinHash算法进行文档去重
- 来源筛选:排除了Wikipedia和LIHKG内容
- 语言检测:使用专用工具CantoneseDetect进行粤语文本过滤
数据处理流程
- 下载并处理Common Crawl数据(处理代码:https://github.com/jedcheng/c4-dataset-script)
- 生成繁体中文数据集(https://huggingface.co/datasets/jed351/Traditional-Chinese-Common-Crawl-Filtered)
- 使用CantoneseDetect过滤粤语文本(中间数据集:https://huggingface.co/datasets/jed351/Cantonese_Common_Crawl_Filtered)
- 通过MinHash去重得到最终数据集
重要意义
这是首个专门为粤语构建的大规模、经过适当整理和去重的网络数据集。
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,粤语长期面临资源匮乏的挑战。本数据集通过系统化流程构建:首先下载并处理多年度的Common Crawl网络爬虫数据,生成繁体中文语料库;继而采用专门开发的粤语检测工具CantoneseDetect进行语言过滤;最后通过MinHash算法实现精细化去重处理,排除维基百科和LIHKG论坛内容,最终形成高质量文本集合。
特点
作为首个大规模、经过专业筛选与去重的粤语网络数据集,其核心价值体现在语言纯正性与数据质量的双重保障。数据集包含约20万份独立文档,总词汇量达1.5亿,全部内容均经过传统繁体中文编码验证,且通过算法确保了文本唯一性,为粤语自然语言处理研究提供了前所未有的基础资源支撑。
使用方法
研究者可依托该数据集开展多项粤语NLP任务,包括语言模型预训练、文本分类和机器翻译等。使用时需加载预处理后的语料文件,注意其繁体中文特性需配合相应分词工具。数据集已按标准格式分块存储,支持流式读取以适应不同规模的计算环境,建议结合原项目提供的代码库实现高效数据处理。
背景与挑战
背景概述
在自然语言处理领域,粤语长期面临资源匮乏的困境,制约了相关技术发展与学术探索。为突破这一瓶颈,Cantonese-Web-Data数据集应运而生,由研究团队通过系统化采集与处理Common Crawl多年数据构建而成。该数据集作为首个大规模、经严格去重与筛选的粤语网络文本集合,包含约20万份独特文档与1.5亿词汇量,显著提升了粤语在机器翻译、语音识别及文化计算等领域的可用性,为低资源语言处理提供了重要基础设施。
当前挑战
粤语文本资源的稀缺性与方言特性构成了核心领域挑战,包括语言识别中的方言混淆、口语化表达与书面语差异以及文化特定词汇的标注困难。在构建过程中,需从海量多语言网络数据中精准分离粤语文本,面临传统中文与粤语字符集重叠导致的误判风险;此外,大规模数据去重要求高效的算法以消除重复及近似文档,同时需排除非目标源如维基百科与论坛内容,确保语料纯净度与代表性。
常用场景
经典使用场景
在低资源语言处理研究中,Cantonese-Web-Data数据集为粤语自然语言处理任务提供了关键数据支撑。该数据集广泛应用于粤语语言模型的预训练与微调,尤其在机器翻译、文本分类和语义理解任务中表现突出,有效弥补了粤语语料稀缺的现状。
解决学术问题
本数据集解决了粤语自然语言处理领域长期存在的语料匮乏问题,为语言模型训练提供了高质量文本资源。其通过去重和过滤技术确保了数据纯净度,显著提升了粤语分词、句法分析和语义表征研究的准确性,推动了低资源语言处理技术的发展。
衍生相关工作
基于该数据集衍生了多项重要研究,包括粤语-普通话神经机器翻译系统CanCLID、粤语预训练模型CantoBERT以及方言计算语言学论文。这些工作被ACL和EMNLP等顶级会议收录,为低资源语言处理建立了新的技术范式。
以上内容由遇见数据集搜集并总结生成



