PunCantonese

github2023-09-12 更新2024-05-31 收录

下载链接：

https://github.com/cpii-cai/PunCantonese

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于低资源粤语语音转录标点恢复的基准语料库。

A benchmark corpus for low-resource Cantonese speech transcription and punctuation restoration.

创建时间：

2023-05-29

原始信息汇总

数据集概述

数据集名称

PunCantonese

数据集用途

用于低资源粤语标点恢复的基准语料库。

数据获取方式

数据集可通过向yunxiang.li@link.cuhk.edu.hk发送请求获取。

数据集相关模型

提出了一种基于Transformer的神经网络模型来评估PunCantonese语料库。
模型利用预训练语言模型进行网络初始化，采用多任务学习目标以防止网络过度关注书面语句的最大子集，并引入了一种新的粤语拼音（Jyutping）嵌入层，以粤语字符的粤语拼音序列表示，从而使模型能够整合粤语字符中未明确提供的语音特征。
模型结构包括一个双向LSTM和一个线性分类层。

模型训练

训练命令示例：

python src/train_jyupin_multi.py --cuda=True --pretrained-model=bert-base-multilingual-uncased --freeze-bert=False --lstm-dim=-1 --seed=0 --lr=2e-5 --epoch=15 --use-crf=False --data-path=data --save-path=out --batch-size=32 --sequence-length=128 --loss=focal --multitask=True --jyutping=True

许可证

本数据集遵循Apache License 2.0。

搜集汇总

数据集介绍

构建方式

PunCantonese数据集的构建基于低资源粤语语音转录文本的标点恢复任务。该数据集通过收集粤语语音转录文本，并对其进行人工标注标点符号，形成了一个专门用于标点恢复任务的基准语料库。数据集的构建过程注重标注的准确性和一致性，确保了数据的高质量。此外，数据集还结合了粤语的语音特征，通过引入Jyutping（粤拼）嵌入层，进一步增强了数据的多样性和实用性。

特点

PunCantonese数据集的特点在于其专注于低资源粤语环境下的标点恢复任务，填补了该领域的空白。数据集不仅包含了丰富的粤语语音转录文本，还通过多任务学习和Jyutping嵌入层，引入了语音特征，使得模型能够更好地捕捉粤语的语音特性。此外，数据集的标注质量高，涵盖了多种标点符号的使用场景，为模型训练和评估提供了坚实的基础。

使用方法

PunCantonese数据集的使用方法主要包括模型的训练和评估。用户可以通过提供的源代码，使用Transformer-based神经网络模型进行训练。训练过程中，用户可以选择是否启用多任务学习和Jyutping嵌入层，以优化模型的性能。数据集的使用还支持自定义超参数设置，如学习率、批次大小等，以适应不同的研究需求。训练完成后，用户可以通过评估指标对模型性能进行量化分析，进一步推动粤语标点恢复任务的研究进展。

背景与挑战

背景概述

PunCantonese数据集由香港中文大学的研究团队于2023年创建，旨在解决低资源粤语语音转录文本中的标点符号恢复问题。该数据集的核心研究问题在于如何从缺乏标点符号的粤语语音转录文本中自动恢复标点符号，以提升文本的可读性和后续自然语言处理任务的性能。PunCantonese的发布填补了粤语标点恢复领域的空白，尤其在低资源语言处理中具有重要意义。该数据集的研究成果已在InterSpeech 2023会议上发表，展示了其在语音处理和自然语言处理领域的潜在影响力。

当前挑战

PunCantonese数据集面临的挑战主要集中在两个方面。首先，粤语作为一种低资源语言，其语音转录文本的标点恢复任务缺乏足够的标注数据，导致模型训练难度较大。其次，粤语的语音特征与书面表达之间存在显著差异，如何有效捕捉语音中的停顿、语调等信息并将其转化为标点符号，是技术实现中的一大难点。此外，数据集的构建过程中，研究人员还需克服粤语拼音（Jyutping）与汉字之间的复杂映射关系，以确保模型能够充分利用语音特征进行标点恢复。这些挑战共同构成了PunCantonese数据集在研究和应用中的核心难题。

常用场景

经典使用场景

PunCantonese数据集主要用于低资源粤语语音转录文本的标点符号恢复研究。该数据集通过提供粤语语音转录的文本数据，为自然语言处理领域的研究者提供了一个基准测试平台，特别是在处理低资源语言的标点恢复任务时，具有重要的参考价值。

实际应用

在实际应用中，PunCantonese数据集可广泛应用于粤语语音识别系统的后处理阶段，提升语音转录文本的可读性和准确性。例如，在粤语语音助手、自动字幕生成系统以及语音转文字服务中，该数据集能够显著提高标点恢复的精度，从而改善用户体验。

衍生相关工作

PunCantonese数据集的发布推动了粤语自然语言处理领域的研究进展。基于该数据集，研究者们开发了多种基于Transformer的神经网络模型，并探索了多任务学习和拼音嵌入在低资源语言处理中的应用。这些工作不仅提升了粤语标点恢复的性能，还为其他低资源语言的标点恢复任务提供了借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集