nanyang-technological-university-singapore/hkcancor

Name: nanyang-technological-university-singapore/hkcancor
Creator: nanyang-technological-university-singapore
Published: 2024-01-18 11:05:35
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/nanyang-technological-university-singapore/hkcancor

下载链接

链接失效反馈

官方服务：

资源简介：

香港粤语语料库（HKCanCor）包含1997年3月至1998年8月期间录制的粤语对话转录。数据集包括自发对话和广播节目，涉及2到4名说话者，总共有约230,000个中文词汇。数据集的词汇进行了分词处理，并标注了词性（POS）标签和粤语罗马化发音。数据集支持的任务包括翻译、文本生成和填空等。数据集的创建者使用了香港语言学学会（LSHK）的罗马化标准，并扩展了Peita-Fujitsu-Renmin Ribao（PRF）语料库的词性标签集，以更好地捕捉粤语特有的现象。此外，数据集还包括了映射到Universal Dependencies 2.0格式的词性标签。

The Hong Kong Cantonese Corpus (HKCanCor) contains transcriptions of Cantonese conversations recorded between March 1997 and August 1998. The dataset comprises spontaneous dialogues and broadcast programs, each involving 2 to 4 speakers, with a total of approximately 230,000 Chinese lexical tokens. The corpus has been word-segmented, with its lexical items annotated with part-of-speech (POS) tags and Cantonese romanized pronunciations. Supported downstream tasks include translation, text generation, cloze tasks, and more. The corpus developers adopted the romanization standard of the Linguistic Society of Hong Kong (LSHK), and expanded the part-of-speech tag set from the Peita-Fujitsu-Renmin Ribao (PRF) corpus to better capture Cantonese-specific linguistic phenomena. Furthermore, the corpus provides POS tags mapped to the Universal Dependencies 2.0 format.

提供机构：

nanyang-technological-university-singapore

原始信息汇总

数据集概述

基本信息

数据集名称: The Hong Kong Cantonese Corpus (HKCanCor)
语言: 粤语 (Yue Chinese)
许可证: CC-BY-4.0
数据集大小: 10K<n<100K
多语言性: 单语种
源数据: 原始数据
任务类别: 翻译、文本生成、填充掩码、对话建模

数据集结构

特征

conversation_id: 对话ID (字符串)
speaker: 说话者 (字符串)
turn_number: 轮次编号 (整数16位)
tokens: 分词 (字符串序列)
transcriptions: 转录 (字符串序列)
pos_tags_prf: PRF格式的词性标签 (序列)
pos_tags_ud: UD2.0格式的词性标签 (序列)

数据分割

训练集: 包含10801个实例，大小为5746381字节

数据集创建

数据集摘要

HKCanCor包含1997年3月至1998年8月期间的对话录音，包括即兴演讲和广播节目，涉及2至4名说话者，其中1段为独白。总计约230,000个中文词汇，分词级别为词级，每个词可能包含多个汉字。词汇带有词性标签和粤语罗马化发音。

词性标签

PRF格式: 扩展自Peita-Fujitsu-Renmin Ribao (PRF)语料库的标签集，以捕捉粤语特有的现象。
UD2.0格式: 为了日常使用和跨语言/语料库的更好可比性，该数据集还包括映射到Universal Dependencies 2.0格式的标签。

引用信息

数据集: Luke, Kang-Kwong and Wong, May LY. "The Hong Kong Cantonese corpus: design and uses." Journal of Chinese Linguistics (2015): 309-330.
词性标签映射: Lee, Jackson. "PyCantonese: Cantonese Linguistics and NLP in Python." GitHub repository. (2020).

搜集汇总

数据集介绍

构建方式

香港粤语语料库（HKCanCor）由1997年3月至1998年8月期间录制的对话转录而成，包含51段自发对话和42段广播节目，涉及2至4名说话者，其中一段为独白。该语料库共计约230,000个中文词汇，采用词级分词，每个词可能包含多个汉字。词汇标注了词性标签，并提供了粤语罗马化发音。罗马化遵循香港语言学会（LSHK）的规范，词性标签则扩展了Peita-Fujitsu-Renmin Ribao（PRF）语料库的标签集，以捕捉粤语特有的现象。此外，为便于跨语言和语料库的比较，该数据集还包括了映射到Universal Dependencies 2.0格式的标签。

特点

HKCanCor语料库的主要特点在于其对粤语特有语言现象的细致捕捉和标注。通过扩展PRF语料库的词性标签集，该语料库能够更准确地反映粤语的语法结构。此外，语料库中的罗马化发音遵循LSHK的规范，为研究者提供了标准化的发音参考。数据集还包含了映射到Universal Dependencies 2.0格式的词性标签，增强了其与其他语言和语料库的兼容性。

使用方法

HKCanCor语料库适用于多种自然语言处理任务，包括翻译、文本生成和填空等。研究者可以通过访问数据集的GitHub仓库或HuggingFace页面下载数据，并根据需要进行预处理和分析。数据集的每个实例包含对话ID、说话者ID、轮次编号、PRF格式和UD2.0格式的词性标签，以及中文文本和LSHK格式的罗马化转录。使用者应遵循Creative Commons Attribution 4.0 International License的许可条款，并在引用时注明出处。

背景与挑战

背景概述

香港粤语语料库（HKCanCor）是由南洋理工大学新加坡分校的Luke Kang Kwong和Wong May LY于2015年创建的。该语料库包含了1997年3月至1998年8月期间录制的对话，涵盖了自发对话和广播节目，涉及2至4名发言者，总计约230,000个中文词汇。HKCanCor不仅提供了词汇级别的分词和罗马化粤语发音，还包含了基于Peita-Fujitsu-Renmin Ribao（PRF）语料库扩展的词性标注，以及映射到通用依存关系2.0格式的词性标签。这一语料库的创建旨在促进粤语语言学和自然语言处理领域的研究，特别是在词性标注和对话建模方面。

当前挑战

HKCanCor在构建过程中面临的主要挑战包括：1) 粤语特有的语言现象的标注，这需要扩展现有的词性标注集；2) 将粤语的词性标注映射到通用依存关系格式，以增强与其他语言和语料库的可比性。此外，该数据集在应用中可能遇到的挑战包括：1) 粤语方言的多样性和复杂性，可能导致模型在处理不同方言变体时的性能下降；2) 数据集的规模相对较小，可能限制了其在深度学习模型训练中的应用效果。

常用场景

经典使用场景

香港粤语语料库（HKCanCor）在语言学研究中具有广泛的应用，尤其是在粤语的自然语言处理（NLP）领域。该数据集的经典使用场景包括粤语的词性标注、句法分析和语音识别。通过提供详细的词性标签和罗马化发音，HKCanCor为研究人员提供了一个丰富的资源，用于开发和验证粤语处理模型。

实际应用

在实际应用中，HKCanCor为粤语的语音识别、机器翻译和对话系统提供了宝贵的数据支持。例如，在语音识别系统中，该数据集的罗马化发音信息可以用于训练更准确的粤语语音模型。此外，HKCanCor的词性标注和句法信息也被用于开发粤语的机器翻译系统，提高了翻译质量和效率。

衍生相关工作

基于HKCanCor，许多相关研究工作得以展开。例如，Jackson Lee开发的PyCantonese库利用该数据集的词性标注信息，实现了粤语的POS标签与Universal Dependencies标签的映射，进一步推动了粤语NLP的标准化。此外，HKCanCor还激发了多个粤语语音识别和自然语言生成项目的研究，促进了粤语在人工智能领域的应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集