Cantonese Wiki Corpus

github2021-12-13 更新2024-05-31 收录

下载链接：

https://github.com/alex-the-man/wiki-yue-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

粵語維基語料庫，包含2021年9月1日快照的粵語維基百科文章文本，数据以csv格式存储，每篇文章作为一行，包含唯一键、标题、URL、修订号和文章内容。

The Cantonese Wikipedia Corpus comprises articles from the Cantonese Wikipedia as of the snapshot taken on September 1, 2021. The data is stored in CSV format, with each article represented as a single row that includes a unique key, title, URL, revision number, and the content of the article.

创建时间：

2021-09-06

原始信息汇总

Cantonese Wiki Corpus - 粵語維基語料庫

数据集概述

内容: 包含2021年9月1日截取的粤语维基百科文章的文本语料库。
文件格式: 文章以行形式存储在corpus.csv文件中。

数据集结构

key: 唯一标识每篇文章的键。
title: 文章标题。
url: 文章的URL链接。
revid: 文章的修订号。
text: 文章的文本内容，不保留换行符。

构建方法

构建工具: 使用Makefile从维基百科的最新转储中重建语料库。
依赖: 需要Python3.7, wikiextractor 3.0.5和csvkit。
构建步骤:
1. 访问维基百科转储页面，获取最新转储日期。
2. 修改Makefile中的WIKI_DUMP_DATE变量。
3. 运行make all下载并构建语料库。

使用示例

示例文件: ngram.ipynb，用于列出语料库中频繁出现的单词组合。

许可证

原始文章: 遵循CC BY-SA 3.0许可证。
衍生作品: 遵循CC BY 4.0许可证。

搜集汇总

数据集介绍

构建方式

Cantonese Wiki Corpus的构建基于2021年9月1日的粤语维基百科快照。通过使用Makefile脚本，从维基百科的官方数据转储站点下载最新的粤语维基百科数据，并利用Python 3.7、wikiextractor 3.0.5和csvkit工具进行数据处理和转换，最终生成包含文章标题、URL、修订号和文本内容的CSV文件。整个构建过程自动化，确保了数据的一致性和可重复性。

特点

该数据集以CSV格式存储，每行代表一篇粤语维基百科文章，包含唯一标识符、文章标题、URL、修订号和文本内容。文本内容经过处理，未保留原始换行符，便于后续分析和处理。数据集覆盖了广泛的粤语语言和文化主题，为粤语自然语言处理研究提供了丰富的语料资源。

使用方法

用户可以通过运行提供的Makefile脚本，自定义下载和构建最新的粤语维基百科语料库。数据集可直接用于文本分析、语言模型训练等任务。示例文件夹中包含Spark笔记本和衍生数据集，展示了如何从语料库中提取高频词组合。数据集遵循CC BY-SA 3.0许可，衍生作品则采用CC BY 4.0许可，确保了使用的灵活性和开放性。

背景与挑战

背景概述

Cantonese Wiki Corpus 是一个专注于粤语维基百科文章的文本语料库，其数据截取自2021年9月1日的维基百科快照。该数据集由社区贡献者构建，旨在为粤语自然语言处理研究提供高质量的文本资源。粤语作为一种重要的汉语方言，在华南地区及海外华人社区中广泛使用，但其在自然语言处理领域的研究资源相对匮乏。Cantonese Wiki Corpus 的创建填补了这一空白，为粤语文本分析、机器翻译、语音识别等任务提供了基础数据支持。该数据集的构建基于维基百科的开放数据，遵循CC BY-SA 3.0许可协议，确保了数据的开放性和可扩展性。

当前挑战

Cantonese Wiki Corpus 面临的挑战主要体现在两个方面。首先，粤语作为一种方言，其语法、词汇和表达方式与普通话存在显著差异，这为文本处理任务带来了额外的复杂性。例如，粤语中存在大量口语化表达和方言词汇，这对分词、词性标注和语义分析提出了更高的要求。其次，数据集的构建过程中，如何从维基百科的原始数据中提取并清洗出高质量的粤语文本是一个技术难点。尽管使用了wikiextractor等工具进行自动化处理，但仍需人工干预以确保数据的准确性和一致性。此外，粤语维基百科的规模相对较小，数据量有限，这可能限制了其在深度学习模型训练中的应用效果。

常用场景

经典使用场景

Cantonese Wiki Corpus 数据集广泛应用于自然语言处理领域，尤其是在粤语文本分析和语言模型训练中。研究者利用该数据集进行词频统计、语言模型训练以及粤语文本的语义分析。通过分析粤语维基百科的文章，研究人员能够深入理解粤语的语法结构和词汇使用特点，从而为粤语的自然语言处理任务提供坚实的基础。

解决学术问题

该数据集解决了粤语自然语言处理中的多个关键问题，如粤语文本的自动分词、词性标注以及句法分析。由于粤语与普通话在语法和词汇上存在显著差异，传统的汉语处理工具往往难以直接应用于粤语文本。Cantonese Wiki Corpus 提供了一个大规模的粤语文本资源，使得研究者能够开发专门针对粤语的语言处理工具和模型，填补了这一领域的空白。

衍生相关工作

Cantonese Wiki Corpus 的发布催生了一系列与粤语自然语言处理相关的研究工作。例如，基于该数据集的研究成果包括粤语-普通话双语翻译模型、粤语情感分析工具以及粤语文本生成系统。这些工作不仅推动了粤语自然语言处理技术的发展，还为其他方言的语言处理研究提供了借鉴和参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集