PyCantonese/HKCanCor Spoken Cantonese Corpus, Baptist U 20th Century Black and White Movie Spoken Cantonese Corpus

github2022-06-11 更新2024-05-31 收录

下载链接：

https://github.com/cathug/corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含从原始CHAT文件提取的pickle和pos/tags的粤语自然语言处理数据集，以及包含原始tokenized csv文件的20世纪黑白电影粤语口语数据集。

A Cantonese natural language processing dataset containing pickles and POS/tags extracted from original CHAT files, along with a 20th-century black-and-white film Cantonese spoken language dataset that includes original tokenized CSV files.

创建时间：

2022-06-11

原始信息汇总

数据集概述

数据集名称

corpus

最后更新时间

2022年6月11日

数据集内容

PyCantonese/HKCanCor 口语粤语语料库（从原始CHAT文件提取的pickle和pos/tags）
浸会大学20世纪黑白电影口语粤语语料库（pickle和原始分词csv文件）
hkcancorpus.ipynb：处理PyCantonese语料库的代码，编译词典（词条和POS标签）和HMM训练数据（BMES标记和POS标记），用于Jieba分词器
stopwords.py：基于Zou等人在2006年提出的“自动构建中文停用词列表”的停用词列表生成器，实现在pandas和hkcancorpus.ipynb中使用
kwong chow cantonese dictionary.ipynb：从网上下载的广洲粤语词典的清洗代码
wiki dump preprocessing.ipynb：粤语维基百科转储预处理代码
livac.py：将文本发送到在线LIVAC分词器并本地保存结果的文件，服务器限制每天请求1000次

相关工具和库

PyCantonese
Beautiful Soup
Requests
Pandas, numpy, jupyter及相关库

搜集汇总

数据集介绍

构建方式

HKCanCor粤语口语语料库与浸会大学20世纪黑白电影粤语语料库的构建过程体现了多源数据整合与精细处理的结合。HKCanCor语料库通过提取原始CHAT文件中的词性标注信息，并将其转化为pickle格式，确保了数据的结构化与高效访问。浸会大学语料库则从黑白电影的原始对白中提取了分词后的CSV文件，进一步丰富了粤语口语数据的多样性。整个构建过程依赖于PyCantonese、Beautiful Soup等工具，确保了数据的准确性与完整性。

使用方法

该数据集的使用方法灵活多样，适用于多种粤语自然语言处理任务。用户可以通过提供的Jupyter Notebook文件（如hkcancorpus.ipynb）对语料库进行进一步处理，生成词典或训练HMM模型。停用词列表生成工具（stopwords.py）可用于自动构建粤语停用词表，提升文本处理效率。此外，数据集还提供了与在线LIVAC分词器的接口（livac.py），用户可通过该接口进行分词操作，并将结果保存至本地。这些工具的结合为粤语文本分析提供了全面的支持。

背景与挑战

背景概述

HKCanCor Spoken Cantonese Corpus与Baptist U 20th Century Black and White Movie Spoken Cantonese Corpus是两个专注于粤语自然语言处理（NLP）的数据集，分别由香港浸会大学的研究团队开发。这些数据集的核心研究问题在于通过粤语语料库的构建与分析，推动粤语在自然语言处理领域的研究与应用。HKCanCor语料库主要基于日常对话的CHAT文件，而Baptist U语料库则聚焦于20世纪黑白电影中的粤语对话。这些数据集为粤语分词、词性标注、隐马尔可夫模型（HMM）训练等任务提供了丰富的资源，极大地促进了粤语NLP技术的发展。

当前挑战

在粤语NLP领域，数据集的构建面临多重挑战。首先，粤语作为一种方言，其语言结构与标准汉语存在显著差异，导致分词与词性标注的难度增加。其次，粤语的语料资源相对稀缺，尤其是高质量的标注数据，这限制了模型的训练效果。此外，数据集的构建过程中，原始数据的清洗与预处理也面临技术难题，例如如何处理非标准化的电影对话文本以及如何从CHAT文件中提取有效的语言信息。这些挑战不仅影响了数据集的构建效率，也对后续的NLP任务提出了更高的技术要求。

常用场景

经典使用场景

HKCanCor Spoken Cantonese Corpus和Baptist U 20th Century Black and White Movie Spoken Cantonese Corpus数据集在自然语言处理领域中被广泛用于粤语的语言模型训练和语音识别系统的开发。这些数据集提供了丰富的粤语口语语料，涵盖了从日常对话到电影台词等多种语境，为研究者提供了宝贵的资源。

解决学术问题

该数据集解决了粤语自然语言处理中的多个关键问题，如词性标注、分词和语言模型的训练。通过提供高质量的标注数据，研究者能够更准确地训练和评估粤语处理算法，从而推动粤语语言技术的发展。

实际应用

在实际应用中，这些数据集被用于开发粤语语音助手、自动字幕生成系统和粤语教学工具。特别是在香港和广东地区，这些技术极大地提升了本地化服务的质量和用户体验。

数据集最近研究