mixed_cantonese_and_english_speech|语音识别数据集|多语言处理数据集

huggingface2024-08-02 更新2024-12-12 收录

语音识别

多语言处理

下载链接：

https://huggingface.co/datasets/AlienKevin/mixed_cantonese_and_english_speech

下载链接

链接失效反馈

资源简介：

混合粤语和英语（MCE）数据集涵盖了18个与日常生活相关的主题，总时长为34.8小时，包含307,540个中文字符和70,132个英文单词。音频文件时长主要集中在5-12秒，最长的为28秒。数据集分为训练集，训练集包含14051个样本，总大小为2814141308.757字节。音频文件在录制时，志愿者按照日常生活中的说话速度、语调和习惯进行录制。

创建时间：

2024-08-01

原始信息汇总

数据集概述

数据集信息

特征:
- audio: 音频数据
- sentence: 字符串类型，句子
- topic: 字符串类型，主题
分割:
- train: 训练集，包含2814141308.757字节，14051个样本
下载大小: 3737048044字节
数据集大小: 2814141308.757字节

配置

默认配置:
- 数据文件路径: data/train-*

语言

粤语

详细描述

主题: 涵盖18个与日常生活相关的主题
音频时长: 总计34.8小时
文本标注: 包含307,540个汉字和70,132个英文单词
主题分析:
- "Food"类别中英文单词最多，汉字与英文单词比例约为3:1
- "Tech News"主题中英文单词最少，汉字与英文单词比例约为8:1
数据分割: 随机抽样后按9:1比例分为训练集和测试集
- 训练集包含31.3小时语音文件
音频时长分布: 主要集中在5-12秒，最长28秒
语音特点: 志愿者按日常习惯语速、语调录音，快慢语速均有，快语速可能增加识别难度

AI搜集汇总

数据集介绍

构建方式

Mixed Cantonese and English (MCE) 数据集的构建过程涵盖了18个与日常生活相关的主题，总计34.8小时的音频文件。数据集通过随机采样所有音频文件，并按9:1的比例划分为训练集和测试集。训练集包含31.3小时的语音文件，测试集则用于验证模型性能。所有音频文件在录制过程中，志愿者均模拟了日常生活中的语速、语调等说话习惯，确保了数据的真实性和多样性。

特点

MCE数据集的特点在于其涵盖了广泛的日常话题，并包含了大量的中英混合语音数据。数据集中，音频文件的时长主要集中在5至12秒之间，最长不超过28秒，适合直接用于大规模语音识别模型的训练。此外，数据集中不同主题的英语单词使用频率差异显著，例如“Food”类别的英语单词使用频率较高，而“Tech News”类别的英语单词使用频率较低。这种多样性为模型提供了丰富的语言环境，有助于提升其在不同场景下的识别能力。

使用方法

MCE数据集的使用方法较为直观，用户可以直接加载训练集和测试集进行模型训练和评估。由于音频文件已经过预处理，大多数情况下无需进行额外的音频分割处理。数据集中的每个音频文件均配有对应的文本标注，用户可以通过这些标注进行监督学习。此外，数据集的中英混合特性使其特别适用于多语言语音识别任务，用户可以根据需要调整模型以应对不同语言环境下的识别挑战。

背景与挑战

背景概述

Mixed Cantonese and English Speech (MCE) 数据集是一个专注于粤语和英语混合语音识别的资源，涵盖了18个与日常生活相关的主题，总计34.8小时的音频文件。该数据集由Shelton1013团队创建，旨在为多语言语音识别模型提供高质量的训练数据。数据集中包含307,540个中文字符和70,132个英文单词的标注文本，反映了粤语和英语在实际生活中的混合使用情况。通过随机采样，数据集被划分为训练集和测试集，比例为9:1，确保了数据分布的均衡性。该数据集的发布为粤语和英语混合语音识别领域的研究提供了重要支持，尤其是在多语言环境下的语音处理任务中具有广泛的应用潜力。

当前挑战

MCE数据集在构建和应用过程中面临多重挑战。首先，粤语和英语的混合使用增加了语音识别的复杂性，尤其是在语速较快的情况下，语音的同化现象和发音不准确性可能导致识别错误。其次，数据集的标注工作需要处理大量双语文本，确保中英文字符和单词的准确对应，这对标注人员的语言能力和专业知识提出了较高要求。此外，音频文件的时长集中在5-12秒之间，较短的语音片段可能限制了某些大规模语音识别模型的训练效果。最后，数据集的构建依赖于志愿者的自然语音录制，如何平衡不同语速和语调的多样性，同时保持数据的高质量，是数据集构建过程中的一大挑战。

常用场景

经典使用场景

在语音识别和自然语言处理领域，mixed_cantonese_and_english_speech数据集被广泛应用于训练和评估跨语言语音识别模型。该数据集包含了粤语和英语混合的日常对话，涵盖了18个不同主题，为研究者提供了一个丰富的多语言语音样本库。通过该数据集，研究者可以深入探讨粤语和英语在语音特征上的差异，以及如何在多语言环境中实现高效的语音识别。

实际应用

在实际应用中，mixed_cantonese_and_english_speech数据集为开发多语言语音助手和跨语言翻译系统提供了重要支持。特别是在粤语和英语混合使用的地区，如香港和广东，该数据集能够帮助提升语音识别系统的准确性和适应性。此外，该数据集还可用于教育领域，帮助学习者更好地理解和掌握粤语和英语的混合使用场景。

衍生相关工作

基于mixed_cantonese_and_english_speech数据集，研究者们已经开发了多种先进的语音识别模型和算法。例如，一些研究利用该数据集训练了端到端的语音识别系统，显著提升了粤语和英语混合语音的识别准确率。此外，该数据集还催生了一系列关于多语言语音特征提取和跨语言语音识别的研究，推动了语音识别技术的进一步发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录