yue-wiki-pl-bert

Hugging Face2025-04-04 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/hon9kon9ize/yue-wiki-pl-bert

下载链接

链接失效反馈

官方服务：

资源简介：

粤语维基百科数据集，专为粤语语言模型预训练或微调设计。包含从维基百科提取的粤语文本数据，每个条目包括唯一标识符、文章URL、标题、文本内容的数值化表示和语音表示。适用于粤语语言模型的研究和开发。

创建时间：

2025-04-04

搜集汇总

数据集介绍

构建方式

该数据集基于粤语维基百科的文本内容构建，通过系统化处理将原始文章转化为结构化数据。构建过程主要包括文本提取、分词处理、音标转换等关键步骤，每篇文章被转化为包含唯一标识符、原文链接、标题、词元化序列及粤语拼音音标的多维数据。数据以Parquet格式存储，共收录176,177条训练样本，总大小约93.5MB，充分保留了粤语特有的方言特征和音韵体系。

特点

作为专门针对粤语设计的语料库，该数据集最显著的特点是同时包含字符级和音素级的语言表征。除常规的文本词元序列外，每条数据都配有标准的粤语拼音标注，这对研究粤语复杂的声调系统具有独特价值。数据集覆盖地理、人文、科学等多元主题，包含香港、爱因斯坦等典型条目，既反映书面语特征，又兼顾方言特殊性，为低资源语言的模型训练提供了高质量素材。

使用方法

研究者可通过Hugging Face的datasets库直接加载该数据集，或使用pandas读取本地Parquet文件进行后续处理。该数据特别适用于粤语语言模型的预训练任务，能有效提升模型对粤语字符和发音的联合理解能力。在具体应用中，建议结合音素信息设计多模态学习架构，或通过迁移学习将现有 multilingual BERT 模型适配至粤语场景。数据加载后可通过标准NLP流程进行特征提取和模型训练，但需注意维基百科文本与日常用语间的风格差异。

背景与挑战

背景概述

粤语作为一种拥有约8500万使用者的重要语言，在自然语言处理领域长期面临资源匮乏的困境。2024年，研究人员hon9kon9ize构建了yue-wiki-pl-bert数据集，旨在填补粤语预训练语料的空白。该数据集基于粤语维基百科内容，包含176,177条经过结构化处理的数据样本，不仅提供原始文本的token化表示，还创新性地整合了粤语拼音的音素标注。这一工作为开发具备音韵感知能力的粤语语言模型奠定了基础，对保护语言多样性和推动方言NLP研究具有重要价值。

当前挑战

构建粤语专用数据集面临多重挑战：在领域问题层面，粤语复杂的声调系统和大量口语用字使得传统中文处理技术难以直接适用，需要开发专门的音韵处理方案；在数据构建过程中，维基百科语料的书面语特性与日常粤语存在显著差异，且不同罗马化标注体系间的转换需要语言学专家参与。此外，粤语社区分散的特性导致语料收集困难，而音素标注的准确性验证也缺乏权威标准，这些因素都增加了数据集质量控制的难度。

常用场景

经典使用场景

在粤语自然语言处理研究中，Yue-Wiki-PL-BERT数据集为预训练粤语专用语言模型提供了标准化的语料基础。该数据集通过整合粤语维基百科的文本内容及其对应的拼音标注，支持研究者构建能够同时理解粤语字符和发音特征的神经网络模型。尤其在处理粤语特有的方言词汇和复杂声调系统时，该数据集展现出独特的价值。

衍生相关工作

该数据集催生了多项粤语NLP领域的创新研究，包括香港科技大学开发的CantoBERT预训练框架，以及粤港澳大湾区联合实验室提出的音韵感知的神经机器翻译系统。这些工作通过扩展数据集的音素标注体系，进一步提升了模型对粤语俚语和古汉语残留特征的理解能力。

数据集最近研究