zoengjyutgaai_saamgwokjinji

Hugging Face2024-07-17 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/hon9kon9ize/zoengjyutgaai_saamgwokjinji

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从[laubonghaudoi/zoengjyutgaai_saamgwokjinji](https://huggingface.co/datasets/laubonghaudoi/zoengjyutgaai_saamgwokjinji) fork而来，包含粤语音频文件、说话者信息、语言标识和转录文本。原始的wav文件分割不正确，因此请求作者提供srt文件和未分割的wav文件，然后重新分割wav文件并与srt文件对齐，过滤了一些过短的样本。训练集包含307个样本，总大小为143668702.0字节。

This dataset is forked from [laubonghaudoi/zoengjyutgaai_saamgwokjinji](https://huggingface.co/datasets/laubonghaudoi/zoengjyutgaai_saamgwokjinji), and contains Cantonese audio files, speaker information, language labels, and transcriptions. The original WAV file segmentation was incorrect, so we requested the author to provide the SRT files and the unsplit WAV files, then re-segmented the WAV files and aligned them with the SRT files, and filtered out some overly short samples. The training set contains 307 samples with a total size of 143,668,702.0 bytes.

创建时间：

2024-07-17

原始信息汇总

数据集概述

语言

粤语 (yue)

许可证

CC0 1.0

配置

默认配置 (default)
- 数据文件路径: data/train-*

数据集信息

特征

文件名 (file_name): 音频类型 (audio)
说话者 (speaker): 字符串类型 (string)
语言 (language): 字符串类型 (string)
转录文本 (transcription): 字符串类型 (string)

数据分割

训练集 (train)
- 字节数: 143668702.0
- 样本数: 307

数据大小

下载大小: 131698525
数据集大小: 143668702.0

搜集汇总

数据集介绍

构建方式

zoengjyutgaai_saamgwokjinji数据集的构建过程基于粤语音频文件及其对应的字幕文件。原始音频文件存在分割不准确的问题，因此作者提供了未分割的音频文件和字幕文件（srt格式）。通过使用librosa库对音频进行重新分割，并将字幕与音频对齐，确保了数据的准确性。此外，过短的样本被过滤，以保证数据集的质量。最终，音频文件被重新采样至44.1kHz，并导出为WAV格式，同时生成包含音频路径、说话者、语言和文本信息的CSV文件。

特点

该数据集以粤语为主要语言，包含307个训练样本，总大小约为143MB。每个样本均包含音频文件、说话者信息、语言标签以及对应的文本转录。音频文件经过重新分割和采样处理，确保了与字幕的精确对齐。数据集特别适用于粤语语音识别、语音合成等任务，尤其是针对粤语文化背景的研究和应用。

使用方法

使用zoengjyutgaai_saamgwokjinji数据集时，可通过加载CSV文件获取音频路径及其对应的文本信息。音频文件以WAV格式存储，采样率为44.1kHz，可直接用于语音处理任务。数据集适用于训练粤语语音模型，如语音识别或语音合成系统。用户可通过librosa等工具对音频进行进一步处理，或直接将其输入深度学习框架进行模型训练。

背景与挑战

背景概述

zoengjyutgaai_saamgwokjinji数据集是一个专注于粤语语音处理的音频数据集，主要基于张悦楷所讲述的《三国演义》粤语版本。该数据集由laubonghaudoi团队创建，旨在为粤语语音识别和合成研究提供高质量的音频素材。数据集的核心研究问题在于如何通过音频与字幕的精确对齐，提升粤语语音模型的训练效果。粤语作为一种重要的汉语方言，其语音处理技术在自然语言处理领域具有广泛的应用前景，尤其是在语音识别、语音合成和方言保护等方面。该数据集的发布为粤语语音研究提供了宝贵的资源，推动了相关领域的技术进步。

当前挑战

zoengjyutgaai_saamgwokjinji数据集在构建过程中面临了多方面的挑战。首先，原始音频文件的分割存在不准确的问题，导致音频与字幕无法精确对齐，这需要通过复杂的音频处理技术重新分割和调整。其次，数据集中部分样本长度过短，影响了模型训练的稳定性，因此需要对数据进行筛选和过滤。此外，音频的采样率需要统一调整为44.1kHz，以满足特定语音合成模型的训练要求，这一过程可能引入额外的噪声或失真。这些技术挑战不仅增加了数据集的构建难度，也对后续的语音处理研究提出了更高的要求。

常用场景

经典使用场景

在粤语语音处理和自然语言处理领域，zoengjyutgaai_saamgwokjinji数据集被广泛用于训练和评估语音识别模型。该数据集包含了粤语语音片段及其对应的文本转录，特别适用于研究粤语语音的声学特征和语言模型。通过该数据集，研究人员可以深入分析粤语语音的独特发音规律，进而提升粤语语音识别系统的准确性和鲁棒性。

解决学术问题

zoengjyutgaai_saamgwokjinji数据集解决了粤语语音识别领域中的多个关键问题。首先，它提供了高质量的粤语语音数据，填补了粤语语音数据集的空白。其次，通过精确的音频分割和文本对齐，该数据集为研究者提供了可靠的训练和测试数据，有助于提升粤语语音识别模型的性能。此外，该数据集还为跨语言语音识别研究提供了宝贵的资源，推动了多语言语音处理技术的发展。

衍生相关工作

基于zoengjyutgaai_saamgwokjinji数据集，研究者们开发了多种先进的粤语语音识别模型和工具。例如，一些研究利用该数据集训练了基于深度学习的粤语语音识别系统，显著提升了识别准确率。此外，该数据集还催生了多个跨语言语音处理项目，推动了粤语与其他语言之间的语音转换和翻译技术的发展。这些衍生工作不仅丰富了粤语语音处理的研究成果，也为相关领域的应用提供了有力支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集