Arabic Little STT

Name: Arabic Little STT
Creator: 阿拉伯国际大学信息与通信工程系
Published: 2025-10-27 21:30:54
License: 暂无描述

arXiv2025-10-27 更新2025-10-29 收录

下载链接：

https://huggingface.co/datasets/mozilla-foundation/common_voice_110

下载链接

链接失效反馈

官方服务：

资源简介：

Arabic Little STT数据集是一个包含288名6-13岁儿童在课堂环境中录制的355个黎凡特阿拉伯语语音的数据集。该数据集旨在填补阿拉伯语儿童语音数据稀缺的空白，并评估了最新的人工智能语音识别模型在儿童语音上的表现。数据集的创建过程中，所有音频均使用标准智能手机麦克风在课堂环境中录制，并经过人工转录和阿拉伯语特定规范化处理。该数据集可用于开发针对儿童语音的语音识别系统，并提高儿童在教育技术中的参与度。

The Arabic Little STT Dataset is a collection of 355 Levantine Arabic speech recordings collected from 288 children aged 6 to 13 in classroom environments. This dataset aims to fill the gap of scarce Arabic children's speech data, and evaluate the performance of state-of-the-art AI speech recognition models on children's speech. During the dataset construction, all audio recordings were captured using standard smartphone microphones in classroom settings, and underwent manual transcription and Arabic-specific normalization processing. This dataset can be used to develop speech recognition systems tailored for children's speech, and enhance children's engagement in educational technology.

提供机构：

阿拉伯国际大学信息与通信工程系

创建时间：

2025-10-27

搜集汇总

数据集介绍

构建方式

在自动语音识别研究领域，针对儿童语音数据稀缺的现状，Arabic Little STT数据集通过严谨的采集流程构建而成。研究团队在课堂环境中使用智能手机麦克风采集了288名6-13岁儿童的355条语音样本，涵盖157名男性和131名女性。所有录音均采用AAC格式存储并转换为WAV格式，平均音频时长约10秒，转录文本平均包含13个词汇。为确保数据质量，研究团队实施了人工可听性验证，并遵循Whisper模型的非英语转录规范，由黎凡特方言母语者完成精准转录。

特点

该数据集凸显出独特的语言学特征，专注于黎凡特方言中的叙利亚变体，填补了阿拉伯语儿童语音资源的空白。语音内容围绕编程、机器人和人工智能主题设计，真实反映了信息技术课堂的教学场景。数据集在采集过程中保留了适度的环境噪声，包括键盘敲击和同伴交谈声，增强了现实场景的还原度。通过实施阿拉伯语特定标准化处理，包括去除变音符号、消除字符延伸和统一字母形式，确保了文本转录的规范性和一致性。这些特征共同构建了一个具有高度生态效度的儿童语音研究样本。

使用方法

在技术应用层面，该数据集为评估自动语音识别模型在儿童语音上的表现提供了标准基准。研究人员可采用词错误率和字符错误率作为核心评估指标，系统测试不同规模语音模型的识别性能。实验设计建议遵循无语言提示的转录模式，依赖模型内置的语言检测能力，确保评估过程的公平性。数据集特别适用于分析成人语音训练模型在儿童语音上的泛化能力，为开发儿童专属语音识别系统提供关键数据支撑。通过对比不同参数规模模型的性能差异，研究者能够深入探索计算资源与识别精度之间的平衡关系。

背景与挑战

背景概述

随着自动语音识别技术在在线教育领域的深入应用，儿童语音数据的稀缺性成为制约技术发展的关键瓶颈。阿拉伯国际大学信息与通信工程系的研究团队于2023年创建的Arabic Little STT数据集，聚焦于6至13岁阿拉伯儿童的黎凡特方言语音采集，包含288名儿童在课堂环境中录制的355条语音样本。该数据集针对阿拉伯语作为低资源语言的特殊性，以及儿童语音在声学特征和语言习惯上与成人的显著差异，填补了阿拉伯语儿童语音语料库的空白，为开发适应儿童语音特点的自动语音识别系统提供了重要基础。

当前挑战

在解决儿童语音识别领域问题时，该数据集面临两大核心挑战：首先，儿童语音的声学特性如更高的基频、变化的语速以及不稳定的发音清晰度，导致现有基于成人语音训练的ASR模型识别准确率显著下降，例如Whisper Large-v3模型在成人阿拉伯语数据集上词错误率为16%，而在本数据集上高达66%。其次，在数据构建过程中需克服严格的伦理审查与隐私保护要求，包括获取家长同意与机构审批的复杂流程，同时还需处理阿拉伯语方言多样性带来的标注复杂性，以及课堂环境中背景噪声对语音质量的干扰问题。

常用场景

经典使用场景

在阿拉伯语儿童语音识别研究领域，Arabic Little STT数据集为评估和改进自动语音识别系统在儿童语音处理方面的性能提供了关键基准。该数据集通过收录288名6至13岁儿童在课堂环境中的355条语音样本，精准捕捉了儿童语音特有的声学特征和语言模式。研究人员利用这一数据集系统测试了Whisper等先进ASR模型在儿童阿拉伯语识别任务中的表现，揭示了现有模型在处理儿童语音时存在的显著性能差距。

解决学术问题

该数据集有效解决了低资源语言环境下儿童语音数据稀缺的核心学术难题。通过提供首个专门针对阿拉伯语儿童语音的标注数据集，填补了阿拉伯语ASR研究中儿童语音语料库的空白。其实验结果表明，即使是最先进的Whisper Large-v3模型在儿童语音识别任务中的词错误率高达66%，远高于成人语音的识别性能，这一发现为改进跨年龄段的语音识别技术提供了重要理论依据。

衍生相关工作

该数据集的发布催生了一系列针对儿童语音识别的创新研究。Jain等人基于Whisper模型的儿童语音适应方法为低资源语言场景提供了技术参考，Shi团队提出的测试时自适应技术则展示了如何通过持续优化提升儿童语音识别精度。这些衍生工作共同推动了跨语言儿童语音识别技术的发展，为构建更具包容性的语音技术生态系统提供了重要支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集