safecantonese/cantomap
收藏数据集卡片 for CantoMap
数据集描述
数据集概述
CantoMap 数据集包含独特的 MP3 文件及其相应的文本文件。数据集中有 30328 小时的录音,其中许多录音还包括人口统计元数据,如年龄、性别和口音,这些数据可以帮助提高语音识别引擎的准确性。
目前,该数据集包含 19673 小时的已验证录音,涵盖 120 种语言,并且不断增加新的语音和语言。
语言
Cantonese
如何使用
使用 datasets 库可以在纯 Python 环境中加载和预处理数据集。可以通过 load_dataset 函数下载和准备数据集到本地驱动器。
例如,下载粤语配置: python from datasets import load_dataset
cv_16 = load_dataset("safecantonese/cantomap", "yue", split="train")
也可以通过添加 streaming=True 参数在流模式下加载数据集:
python
from datasets import load_dataset
cv_16 = load_dataset("safecantonese/cantomap", "yue", split="train", streaming=True)
print(next(iter(cv_16)))
本地
python from datasets import load_dataset from torch.utils.data.sampler import BatchSampler, RandomSampler
cv_16 = load_dataset("safecantonese/cantomap", "yue", split="train")
batch_sampler = BatchSampler(RandomSampler(cv_16), batch_size=32, drop_last=False) dataloader = DataLoader(cv_16, batch_sampler=batch_sampler)
流式
python from datasets import load_dataset from torch.utils.data import DataLoader
cv_16 = load_dataset("safecantonese/cantomap", "yue", split="train") dataloader = DataLoader(cv_16, batch_size=32)
数据集结构
数据实例
一个典型的数据点包括音频文件的路径和对应的句子。
python { path: et/clips/common_voice_et_18318995.mp3, audio: { path: et/clips/common_voice_et_18318995.mp3, array: array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), sampling_rate: 48000 }, sentence: Tasub kokku saada inimestega, keda tunned juba ammust ajast saati., }
数据字段
path(string): 音频文件的路径audio(dict): 包含下载的音频文件路径、解码的音频数组和采样率的字典。注意,访问音频列时,音频文件会自动解码并重新采样到dataset.features["audio"].sampling_rate。sentence(string): 用户被提示说的句子
数据分割
语音材料已被细分为训练和测试部分。
附加信息
许可信息
gpl-3.0
引用信息
@inproceedings{lrec:2020, author = {Winterstein, Grégoire, Tang, Carmen and Lai, Regine}, title = {CantoMap: a Hong Kong Cantonese MapTask Corpus} }




