safecantonese/cantomap

Name: safecantonese/cantomap
Creator: safecantonese
Published: 2024-02-03 15:19:34
License: 暂无描述

Hugging Face2024-02-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/safecantonese/cantomap

下载链接

链接失效反馈

官方服务：

资源简介：

CantoMap数据集是一个包含粤语（Cantonese）语音和对应文本的数据集，主要用于语音识别任务。数据集的创建者是通过众包方式完成的，语言为粤语，许可证为GPL-3.0。数据集的结构包括音频文件的路径、音频数据和对应的句子。

提供机构：

safecantonese

原始信息汇总

数据集卡片 for CantoMap

数据集描述

数据集概述

CantoMap 数据集包含独特的 MP3 文件及其相应的文本文件。数据集中有 30328 小时的录音，其中许多录音还包括人口统计元数据，如年龄、性别和口音，这些数据可以帮助提高语音识别引擎的准确性。

目前，该数据集包含 19673 小时的已验证录音，涵盖 120 种语言，并且不断增加新的语音和语言。

语言

Cantonese

如何使用

使用 datasets 库可以在纯 Python 环境中加载和预处理数据集。可以通过 load_dataset 函数下载和准备数据集到本地驱动器。

例如，下载粤语配置： python from datasets import load_dataset

cv_16 = load_dataset("safecantonese/cantomap", "yue", split="train")

也可以通过添加 streaming=True 参数在流模式下加载数据集： python from datasets import load_dataset

cv_16 = load_dataset("safecantonese/cantomap", "yue", split="train", streaming=True)

print(next(iter(cv_16)))

本地

python from datasets import load_dataset from torch.utils.data.sampler import BatchSampler, RandomSampler

cv_16 = load_dataset("safecantonese/cantomap", "yue", split="train")

batch_sampler = BatchSampler(RandomSampler(cv_16), batch_size=32, drop_last=False) dataloader = DataLoader(cv_16, batch_sampler=batch_sampler)

流式

python from datasets import load_dataset from torch.utils.data import DataLoader

cv_16 = load_dataset("safecantonese/cantomap", "yue", split="train") dataloader = DataLoader(cv_16, batch_size=32)

数据集结构

数据实例

一个典型的数据点包括音频文件的路径和对应的句子。

python { path: et/clips/common_voice_et_18318995.mp3, audio: { path: et/clips/common_voice_et_18318995.mp3, array: array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), sampling_rate: 48000 }, sentence: Tasub kokku saada inimestega, keda tunned juba ammust ajast saati., }

数据字段

path (string): 音频文件的路径
audio (dict): 包含下载的音频文件路径、解码的音频数组和采样率的字典。注意，访问音频列时，音频文件会自动解码并重新采样到 dataset.features["audio"].sampling_rate。
sentence (string): 用户被提示说的句子

数据分割

语音材料已被细分为训练和测试部分。

附加信息

许可信息

gpl-3.0

引用信息

@inproceedings{lrec:2020, author = {Winterstein, Grégoire, Tang, Carmen and Lai, Regine}, title = {CantoMap: a Hong Kong Cantonese MapTask Corpus} }

搜集汇总

数据集介绍

构建方式

在语音识别技术蓬勃发展的背景下，CantoMap数据集的构建体现了对粤语这一重要方言资源的系统性采集。该数据集源自Common Voice项目，通过众包方式汇集了来自社区的广泛贡献。构建过程涉及采集独特的MP3音频文件及其对应的文本转录，并整合了说话人的年龄、性别和口音等人口统计学元数据，以增强数据的多样性和代表性。整个语料库经过严格的验证流程，确保了19673小时有效语音数据的质量，为粤语语音模型的训练提供了坚实的数据基础。

特点

作为专注于香港粤语的语音数据集，CantoMap展现了鲜明的语言学特征与技术价值。其核心特点在于包含了大量经过验证的高质量语音-文本配对数据，并附有丰富的说话人元数据，这为研究语音变异和构建鲁棒的识别模型提供了关键支持。数据集采用单语设计，语言代码为“yue”，确保了语料的纯粹性与一致性。其结构清晰，明确划分了训练与测试子集，便于模型开发与评估工作的开展，是粤语计算语言学领域一项重要的基础设施。

使用方法

为便利研究者的使用，CantoMap数据集可通过Hugging Face的`datasets`库高效加载与处理。用户只需指定语言配置名“yue”，调用`load_dataset`函数即可将数据下载至本地或进行流式读取。该库支持自动解码音频文件并重采样，简化了预处理步骤。此外，数据集可无缝集成至PyTorch等深度学习框架，通过创建DataLoader直接用于模型训练。对于自动语音识别任务，研究者可参考提供的示例脚本，利用`transformers`库训练CTC或Seq2Seq模型，充分挖掘该数据集的潜力。

背景与挑战

背景概述

在语音识别与方言保护的研究领域，粤语作为全球数千万人使用的语言，其数字资源的构建显得尤为重要。CantoMap数据集由香港学者Grégoire Winterstein、Carmen Tang及Regine Lai等人于2020年创建，并发表于LREC国际会议。该数据集源自Mozilla Common Voice项目，专注于香港粤语的语音数据收集，核心研究问题在于解决低资源语言在自动语音识别技术中的代表性不足，通过众包方式采集了大量带有文本转录的语音样本，为粤语语音处理模型的开发提供了关键数据基础，显著推动了方言技术在自然语言处理领域的发展。

当前挑战

CantoMap数据集致力于应对粤语自动语音识别中的核心挑战，即如何在数据稀缺环境下构建高精度模型。具体而言，粤语作为有声调语言，其语音变体丰富，包括声调变化和口语化表达，这增加了模型训练的复杂性。在数据集构建过程中，挑战主要集中于众包数据的质量控制，例如确保录音环境的多样性、说话人年龄与性别分布的均衡性，以及文本转录的准确性。此外，整合来自Common Voice的多语言框架，同时保持粤语数据的独特语言特征，也是一项技术难点。

常用场景

经典使用场景

在粤语语音识别研究领域，CantoMap数据集为学者提供了珍贵的资源。该数据集通过众包方式收集了大量香港粤语口语样本，包含音频文件及对应文本，常用于训练和评估自动语音识别模型。研究者利用其丰富的语音材料和标注信息，能够深入探索粤语特有的声调、韵律及口语表达特征，为构建高精度的粤语语音识别系统奠定基础。

实际应用

在实际应用层面，CantoMap数据集为粤语地区的智能技术开发提供了支撑。基于该数据集训练的语音识别模型，可集成于智能助理、语音输入法及客户服务系统之中，提升粤语用户的人机交互体验。此外，在教育领域，它可用于开发语言学习工具，帮助学习者掌握粤语发音；在文化遗产保护方面，则为粤语口语的数字化存档与分析提供了可行路径。

衍生相关工作

围绕CantoMap数据集，已衍生出一系列经典研究工作。例如，研究者利用该语料库开发了基于CTC或序列到序列架构的粤语语音识别模型，这些工作常发表于LREC等国际会议。同时，数据集也促进了跨语言语音技术的研究，部分成果探索了粤语与普通话或其他方言之间的语音转换与识别迁移，进一步拓展了多语言语音处理的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集