mixed_cantonese_and_english_speech

Hugging Face2024-08-02 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/AlienKevin/mixed_cantonese_and_english_speech

下载链接

链接失效反馈

官方服务：

资源简介：

混合粤语和英语（MCE）数据集涵盖了18个与日常生活相关的主题，总时长为34.8小时，包含307,540个中文字符和70,132个英文单词。音频文件时长主要集中在5-12秒，最长的为28秒。数据集分为训练集，训练集包含14051个样本，总大小为2814141308.757字节。音频文件在录制时，志愿者按照日常生活中的说话速度、语调和习惯进行录制。

创建时间：

2024-08-01

原始信息汇总

数据集概述

数据集信息

特征:
- audio: 音频数据
- sentence: 字符串类型，句子
- topic: 字符串类型，主题
分割:
- train: 训练集，包含2814141308.757字节，14051个样本
下载大小: 3737048044字节
数据集大小: 2814141308.757字节

配置

默认配置:
- 数据文件路径: data/train-*

语言

粤语

详细描述

主题: 涵盖18个与日常生活相关的主题
音频时长: 总计34.8小时
文本标注: 包含307,540个汉字和70,132个英文单词
主题分析:
- "Food"类别中英文单词最多，汉字与英文单词比例约为3:1
- "Tech News"主题中英文单词最少，汉字与英文单词比例约为8:1
数据分割: 随机抽样后按9:1比例分为训练集和测试集
- 训练集包含31.3小时语音文件
音频时长分布: 主要集中在5-12秒，最长28秒
语音特点: 志愿者按日常习惯语速、语调录音，快慢语速均有，快语速可能增加识别难度

搜集汇总

数据集介绍

构建方式

Mixed Cantonese and English (MCE) 数据集的构建过程涵盖了18个与日常生活相关的主题，总计34.8小时的音频文件。数据集通过随机采样所有音频文件，并按9:1的比例划分为训练集和测试集。训练集包含31.3小时的语音文件，测试集则用于验证模型性能。所有音频文件在录制过程中，志愿者均模拟了日常生活中的语速、语调等说话习惯，确保了数据的真实性和多样性。

特点

MCE数据集的特点在于其涵盖了广泛的日常话题，并包含了大量的中英混合语音数据。数据集中，音频文件的时长主要集中在5至12秒之间，最长不超过28秒，适合直接用于大规模语音识别模型的训练。此外，数据集中不同主题的英语单词使用频率差异显著，例如“Food”类别的英语单词使用频率较高，而“Tech News”类别的英语单词使用频率较低。这种多样性为模型提供了丰富的语言环境，有助于提升其在不同场景下的识别能力。

使用方法

MCE数据集的使用方法较为直观，用户可以直接加载训练集和测试集进行模型训练和评估。由于音频文件已经过预处理，大多数情况下无需进行额外的音频分割处理。数据集中的每个音频文件均配有对应的文本标注，用户可以通过这些标注进行监督学习。此外，数据集的中英混合特性使其特别适用于多语言语音识别任务，用户可以根据需要调整模型以应对不同语言环境下的识别挑战。

背景与挑战

背景概述

Mixed Cantonese and English Speech (MCE) 数据集是一个专注于粤语和英语混合语音识别的资源，涵盖了18个与日常生活相关的主题，总计34.8小时的音频文件。该数据集由Shelton1013团队创建，旨在为多语言语音识别模型提供高质量的训练数据。数据集中包含307,540个中文字符和70,132个英文单词的标注文本，反映了粤语和英语在实际生活中的混合使用情况。通过随机采样，数据集被划分为训练集和测试集，比例为9:1，确保了数据分布的均衡性。该数据集的发布为粤语和英语混合语音识别领域的研究提供了重要支持，尤其是在多语言环境下的语音处理任务中具有广泛的应用潜力。

当前挑战

MCE数据集在构建和应用过程中面临多重挑战。首先，粤语和英语的混合使用增加了语音识别的复杂性，尤其是在语速较快的情况下，语音的同化现象和发音不准确性可能导致识别错误。其次，数据集的标注工作需要处理大量双语文本，确保中英文字符和单词的准确对应，这对标注人员的语言能力和专业知识提出了较高要求。此外，音频文件的时长集中在5-12秒之间，较短的语音片段可能限制了某些大规模语音识别模型的训练效果。最后，数据集的构建依赖于志愿者的自然语音录制，如何平衡不同语速和语调的多样性，同时保持数据的高质量，是数据集构建过程中的一大挑战。

常用场景

经典使用场景

在语音识别和自然语言处理领域，mixed_cantonese_and_english_speech数据集被广泛应用于训练和评估跨语言语音识别模型。该数据集包含了粤语和英语混合的日常对话，涵盖了18个不同主题，为研究者提供了一个丰富的多语言语音样本库。通过该数据集，研究者可以深入探讨粤语和英语在语音特征上的差异，以及如何在多语言环境中实现高效的语音识别。

实际应用

在实际应用中，mixed_cantonese_and_english_speech数据集为开发多语言语音助手和跨语言翻译系统提供了重要支持。特别是在粤语和英语混合使用的地区，如香港和广东，该数据集能够帮助提升语音识别系统的准确性和适应性。此外，该数据集还可用于教育领域，帮助学习者更好地理解和掌握粤语和英语的混合使用场景。

衍生相关工作

基于mixed_cantonese_and_english_speech数据集，研究者们已经开发了多种先进的语音识别模型和算法。例如，一些研究利用该数据集训练了端到端的语音识别系统，显著提升了粤语和英语混合语音的识别准确率。此外，该数据集还催生了一系列关于多语言语音特征提取和跨语言语音识别的研究，推动了语音识别技术的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集