five

hamsa-asr-small-21k

收藏
Hugging Face2025-12-09 更新2025-12-10 收录
下载链接:
https://huggingface.co/datasets/nadsoft/hamsa-asr-small-21k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于自动语音识别(ASR)任务的阿拉伯语语音录音及其转录文本。数据集总样本数为21980个,其中训练样本20880个,测试样本1100个。音频格式为WAV(16kHz采样率)。数据集提供了丰富的特征,包括音频、文本、说话者性别、句子结束预测、模型信息等。转录文本由nadsoft/Hamsa-Conversational-v1.0-mulaw模型生成,部分文本经过人工审核。数据集适用于阿拉伯语语音识别任务。
提供机构:
NADSOFT
创建时间:
2025-12-09
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Arabic ASR Dataset
  • 数据集标识: nadsoft/hamsa-asr-small-21k
  • 语言: 阿拉伯语 (ar)
  • 主要任务: 自动语音识别 (Automatic Speech Recognition)
  • 许可证: Apache 2.0
  • 数据规模: n<1K (样本数少于1,000)

数据集统计

  • 总样本数: 21,980
  • 训练集样本数: 20,880
  • 测试集样本数: 1,100
  • 音频格式: WAV
  • 采样率: 16kHz

数据特征

特征 类型 描述
audio Audio 音频录音 (16kHz)
text string 阿拉伯语转录文本
gender string 说话者性别 (Male/Female/Unknown)
eos_prediction int32 句子结束预测 (0/1)
eos_probability float32 句子结束概率
model string 用于预测的模型名称
reviewed bool 转录文本是否已被审阅
duration float32 音频时长 (秒)
ignore bool 是否应忽略此样本

音频字段详情

  • audio: 一个包含以下内容的字典:
    • path: 音频文件路径
    • array: 音频数组
    • sampling_rate: 采样率 (16000 Hz)

其他说明

  • 转录生成模型: nadsoft/Hamsa-Conversational-v1.0-mulaw
  • 忽略样本处理: 当 ignore 字段为 True 时,text 字段内容为 "no-text"。
搜集汇总
数据集介绍
main_image_url
构建方式
在阿拉伯语自动语音识别领域,数据集的构建通常依赖于高质量的语音采集与精准的文本转录。本数据集通过整合阿拉伯语语音录音及其对应文本,形成了专为ASR任务设计的语料库。其构建过程涉及音频的录制与标准化处理,所有音频均以WAV格式保存,采样率为16kHz,确保了语音信号的清晰与一致。转录文本的生成借助了特定模型nadsoft/Hamsa-Conversational-v1.0-mulaw,部分样本经过人工审核以提升标注质量,同时数据集包含了性别、句子结束预测等元数据,增强了数据的多维可用性。
特点
该数据集在阿拉伯语语音识别资源中展现出显著特点,其规模适中,包含21,980个样本,划分为20,880个训练样本和1,100个测试样本,便于模型训练与评估。数据特征丰富,不仅提供音频和阿拉伯语文本,还涵盖说话者性别、句子结束预测概率及审核状态等信息,这些元数据支持更精细的语音分析。音频格式统一为16kHz采样率的WAV文件,保证了数据处理的便捷性,而ignore标志则允许用户灵活筛选样本,适应不同研究需求。
使用方法
对于研究人员和开发者而言,使用本数据集进行阿拉伯语语音识别实验十分便捷。通过Hugging Face的datasets库,可直接加载数据集并访问训练与测试分割。加载后,用户可轻松提取音频数组和对应文本,进行模型训练或评估。示例代码展示了如何访问首个样本的音频和转录内容,同时元数据如性别和审核状态可用于数据过滤或分析,为构建高效ASR系统提供了坚实基础。
背景与挑战
背景概述
阿拉伯语自动语音识别(ASR)作为自然语言处理领域的重要分支,其发展长期受限于高质量标注数据的稀缺性。HAMSA-ASR-SMALL-21K数据集由NADSoft机构构建,旨在为阿拉伯语ASR任务提供结构化的语音-文本配对资源。该数据集包含约2.2万条标注样本,覆盖男女声等多维度特征,其核心研究问题聚焦于提升阿拉伯语语音转写的准确性与鲁棒性,对推动中东地区语言技术平等化进程具有实质性意义。
当前挑战
阿拉伯语ASR领域面临方言多样性、音素复杂性及标注标准不统一等固有挑战,该数据集需解决非标准发音与书面语差异导致的识别误差问题。在构建过程中,数据采集受限于录音设备异构性,语音质量参差不齐;转录环节依赖自动模型生成初稿,虽经部分人工审核,但仍存在语义歧义校正与噪声过滤的双重压力,同时性别平衡与口音覆盖的全面性亦构成数据代表性的潜在制约。
常用场景
经典使用场景
在阿拉伯语语音识别领域,该数据集为研究人员提供了高质量的语音-文本对齐资源,经典使用场景包括训练和评估端到端自动语音识别模型。通过包含超过两万条标注样本,它支持从声学建模到语言建模的全流程实验,尤其在处理阿拉伯语特有的语音变体和口音方面展现出重要价值,为构建鲁棒的ASR系统奠定了数据基础。
解决学术问题
该数据集有效解决了阿拉伯语ASR研究中数据稀缺和质量不均的学术难题。它通过提供大规模、结构化的语音转录对,促进了低资源语言语音技术的公平发展,并支持跨性别、跨口音的模型泛化研究。其细致的元数据标注,如句子边界预测和人工审核标志,为探索语音分段、噪声鲁棒性等核心问题提供了实证支撑,推动了多模态语言处理的理论进展。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于Hamsa-Conversational模型的语音识别流水线优化,以及针对阿拉伯语语音特征的声学模型适配。这些工作进一步探索了多说话人场景下的识别鲁棒性,并利用其句子边界预测特征开发了端到端语音分段算法,为后续的低资源语言ASR研究提供了可复现的基准和创新的方法论启示。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作