YueData
收藏arXiv2025-03-06 更新2025-03-07 收录
下载链接:
https://dumps.wikimedia.org/zh_yuewiki/
下载链接
链接失效反馈资源简介:
YueData是一个高质量的大型粤语语料库,由香港中文大学和香港大学的研究人员共同创建。该数据集从开源语料库、香港特色论坛、粤语维基百科和Common Crawl数据等多种来源收集粤语文本,经过语言过滤、质量过滤、内容过滤和去重等严格的数据处理流程,最终构建了一个超过20亿tokens的粤语语料库,为大型语言模型的训练奠定了坚实基础。
YueData is a high-quality large-scale Cantonese corpus jointly created by researchers from The Chinese University of Hong Kong and The University of Hong Kong. This dataset collects Cantonese texts from multiple sources including open-source corpora, Hong Kong-specific forums, Cantonese Wikipedia, and Common Crawl data. It undergoes strict data processing procedures such as language filtering, quality filtering, content filtering and deduplication, ultimately building a Cantonese corpus with over 2 billion tokens, which lays a solid foundation for the training of large language models.
提供机构:
香港中文大学, 香港大学
创建时间:
2025-03-06
AI搜集汇总
数据集介绍

构建方式
YueData数据集的构建过程涵盖了从多个来源收集粤语文本的复杂流程。数据来源包括开源语料库、香港特定论坛(如LIHKG和OpenRice)、粤语版维基百科以及Common Crawl数据。为了确保数据的高质量,研究团队采用了严格的数据处理步骤,包括语言过滤、质量过滤、内容过滤和去重。语言过滤通过Fast-Langid工具识别并保留粤语内容,质量过滤则基于启发式规则筛选高质量文本。内容过滤进一步移除了有害信息,如毒性语言和敏感内容。去重则通过MinHash和局部敏感哈希(LSH)技术确保语料的独特性和多样性。最终,构建了一个包含超过20亿个token的高质量粤语语料库,为大语言模型的训练奠定了坚实基础。
特点
YueData数据集的特点在于其多样性和高质量。数据来源广泛,涵盖了从正式文本到非正式对话的多种语言风格,尤其是香港粤语的日常用语和俚语。数据集经过严格的质量控制,确保了文本的纯净性和一致性。此外,YueData还特别关注了粤语与英语的混合使用(code-switching)以及粤语特有的词汇和表达方式,这为模型处理复杂的粤语语言现象提供了丰富的训练材料。数据集的规模庞大,覆盖了超过20亿个token,为大语言模型提供了充足的训练资源。
使用方法
YueData数据集主要用于训练和微调大语言模型,特别是在粤语任务上的表现。首先,数据集被用于预训练阶段,帮助模型学习粤语的语言模式和结构。随后,通过监督微调(SFT)进一步优化模型在特定任务上的表现,如粤语问答、数学推理和知识检索。YueData还可以用于跨语言任务,通过将中文任务翻译为粤语,扩展模型的多语言处理能力。此外,数据集的高质量和多样性使其成为评估粤语自然语言处理模型的理想基准,帮助研究人员开发更强大的粤语语言模型。
背景与挑战
背景概述
YueData数据集由香港中文大学和香港大学的研究团队于2024年创建,旨在解决粤语作为低资源语言在自然语言处理(NLP)领域的挑战。尽管粤语拥有超过8500万母语者,但由于普通话的主导地位、粤语社区的分散性、字符编码和输入方法的多样性,粤语在NLP领域仍被视为低资源语言。YueData通过从开源语料库、香港特定论坛、维基百科和Common Crawl数据中收集粤语文本,构建了一个包含超过20亿个标记的高质量粤语语料库。该数据集不仅用于训练大语言模型(LLM),还通过监督微调(SFT)提升了模型在粤语任务中的表现,并在多个粤语基准测试中取得了领先的性能。
当前挑战
YueData数据集在构建过程中面临多重挑战。首先,粤语的丰富口语词汇、英语借词和语码转换现象增加了语料收集和处理的复杂性。其次,粤语的书面形式与口语形式存在显著差异,许多口语表达缺乏标准化的书面形式,且涉及繁简字体的转换和独特的粤语字符使用,这进一步增加了文本数据的标准化难度。此外,数据收集过程中需要处理不同地区和平台上的粤语使用差异,确保数据的多样性和代表性。在数据处理阶段,研究团队通过语言过滤、质量过滤、内容过滤和去重等步骤,确保语料库的高质量和纯净性。这些挑战的克服为粤语NLP研究提供了宝贵的数据资源,推动了粤语大语言模型的发展。
常用场景
经典使用场景
YueData数据集在自然语言处理领域中的经典使用场景主要集中在大规模语言模型的训练与优化上。该数据集通过收集和处理超过20亿个粤语词汇,为粤语这一低资源语言提供了高质量的语料库。研究人员利用YueData进行预训练和微调,显著提升了模型在粤语任务中的表现,尤其是在粤语问答、数学推理和多选题理解等任务上。通过这一数据集,研究人员能够更好地解决粤语语言模型在低资源环境下的性能瓶颈问题。
衍生相关工作
YueData数据集衍生了许多相关的研究工作。首先,基于YueData训练的YueTung模型在多个粤语基准测试中达到了业界领先水平,成为粤语语言模型的标杆。其次,研究人员利用YueData进一步探索了多任务学习在低资源语言中的应用,提出了多种优化策略,提升了模型在粤语任务上的表现。此外,YueData还为跨语言迁移学习提供了新的思路,研究人员发现,通过粤语数据的训练,模型在其他主流语言任务上的表现也有所提升,这为低资源语言的模型训练提供了新的研究方向。
数据集最近研究
最新研究方向
近年来,随着自然语言处理(NLP)领域的快速发展,低资源语言的处理逐渐成为研究热点。YueData作为一个大规模粤语数据集,为粤语这一低资源语言的大语言模型(LLM)训练提供了重要支持。粤语作为拥有超过8500万母语者的语言,在NLP领域却因资源匮乏而面临诸多挑战。YueData通过从开源语料库、香港特定论坛、维基百科和Common Crawl等多源数据中收集粤语文本,并经过严格的语言过滤、质量筛选、内容去重等处理步骤,构建了一个包含超过20亿个token的高质量粤语语料库。该数据集不仅推动了粤语大语言模型的发展,还在多任务处理中展现了卓越的性能。通过监督微调(SFT),YueData训练的模型在多个粤语基准测试中达到了最先进的性能,并在主流语言任务中表现出色,证明了高质量粤语数据对模型整体性能提升的贡献。这一研究为低资源语言的NLP研究提供了新的思路,推动了粤语及其他低资源语言在人工智能领域的应用与发展。
相关研究论文
- 1Developing and Utilizing a Large-Scale Cantonese Dataset for Multi-Tasking in Large Language Models香港中文大学, 香港大学 · 2025年
以上内容由AI搜集并总结生成



