hamsa-asr-small-21k

Name: hamsa-asr-small-21k
Creator: NADSOFT
Published: 2025-12-09 17:23:17
License: 暂无描述

Hugging Face2025-12-09 更新2025-12-10 收录

下载链接：

https://huggingface.co/datasets/nadsoft/hamsa-asr-small-21k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于自动语音识别（ASR）任务的阿拉伯语语音录音及其转录文本。数据集总样本数为21980个，其中训练样本20880个，测试样本1100个。音频格式为WAV（16kHz采样率）。数据集提供了丰富的特征，包括音频、文本、说话者性别、句子结束预测、模型信息等。转录文本由nadsoft/Hamsa-Conversational-v1.0-mulaw模型生成，部分文本经过人工审核。数据集适用于阿拉伯语语音识别任务。

提供机构：

NADSOFT

创建时间：

2025-12-09

原始信息汇总

数据集概述

基本信息

数据集名称: Arabic ASR Dataset
数据集标识: nadsoft/hamsa-asr-small-21k
语言: 阿拉伯语 (ar)
主要任务: 自动语音识别 (Automatic Speech Recognition)
许可证: Apache 2.0
数据规模: n<1K (样本数少于1,000)

数据集统计

总样本数: 21,980
训练集样本数: 20,880
测试集样本数: 1,100
音频格式: WAV
采样率: 16kHz

数据特征

特征	类型	描述
`audio`	Audio	音频录音 (16kHz)
`text`	string	阿拉伯语转录文本
`gender`	string	说话者性别 (Male/Female/Unknown)
`eos_prediction`	int32	句子结束预测 (0/1)
`eos_probability`	float32	句子结束概率
`model`	string	用于预测的模型名称
`reviewed`	bool	转录文本是否已被审阅
`duration`	float32	音频时长 (秒)
`ignore`	bool	是否应忽略此样本

音频字段详情

audio: 一个包含以下内容的字典：
- path: 音频文件路径
- array: 音频数组
- sampling_rate: 采样率 (16000 Hz)

其他说明

转录生成模型: nadsoft/Hamsa-Conversational-v1.0-mulaw
忽略样本处理: 当 ignore 字段为 True 时，text 字段内容为 "no-text"。

搜集汇总

数据集介绍

构建方式

在阿拉伯语自动语音识别领域，数据集的构建通常依赖于高质量的语音采集与精准的文本转录。本数据集通过整合阿拉伯语语音录音及其对应文本，形成了专为ASR任务设计的语料库。其构建过程涉及音频的录制与标准化处理，所有音频均以WAV格式保存，采样率为16kHz，确保了语音信号的清晰与一致。转录文本的生成借助了特定模型nadsoft/Hamsa-Conversational-v1.0-mulaw，部分样本经过人工审核以提升标注质量，同时数据集包含了性别、句子结束预测等元数据，增强了数据的多维可用性。

特点

该数据集在阿拉伯语语音识别资源中展现出显著特点，其规模适中，包含21,980个样本，划分为20,880个训练样本和1,100个测试样本，便于模型训练与评估。数据特征丰富，不仅提供音频和阿拉伯语文本，还涵盖说话者性别、句子结束预测概率及审核状态等信息，这些元数据支持更精细的语音分析。音频格式统一为16kHz采样率的WAV文件，保证了数据处理的便捷性，而ignore标志则允许用户灵活筛选样本，适应不同研究需求。

使用方法

对于研究人员和开发者而言，使用本数据集进行阿拉伯语语音识别实验十分便捷。通过Hugging Face的datasets库，可直接加载数据集并访问训练与测试分割。加载后，用户可轻松提取音频数组和对应文本，进行模型训练或评估。示例代码展示了如何访问首个样本的音频和转录内容，同时元数据如性别和审核状态可用于数据过滤或分析，为构建高效ASR系统提供了坚实基础。

背景与挑战

背景概述

阿拉伯语自动语音识别（ASR）作为自然语言处理领域的重要分支，其发展长期受限于高质量标注数据的稀缺性。HAMSA-ASR-SMALL-21K数据集由NADSoft机构构建，旨在为阿拉伯语ASR任务提供结构化的语音-文本配对资源。该数据集包含约2.2万条标注样本，覆盖男女声等多维度特征，其核心研究问题聚焦于提升阿拉伯语语音转写的准确性与鲁棒性，对推动中东地区语言技术平等化进程具有实质性意义。

当前挑战

阿拉伯语ASR领域面临方言多样性、音素复杂性及标注标准不统一等固有挑战，该数据集需解决非标准发音与书面语差异导致的识别误差问题。在构建过程中，数据采集受限于录音设备异构性，语音质量参差不齐；转录环节依赖自动模型生成初稿，虽经部分人工审核，但仍存在语义歧义校正与噪声过滤的双重压力，同时性别平衡与口音覆盖的全面性亦构成数据代表性的潜在制约。

常用场景

经典使用场景

在阿拉伯语语音识别领域，该数据集为研究人员提供了高质量的语音-文本对齐资源，经典使用场景包括训练和评估端到端自动语音识别模型。通过包含超过两万条标注样本，它支持从声学建模到语言建模的全流程实验，尤其在处理阿拉伯语特有的语音变体和口音方面展现出重要价值，为构建鲁棒的ASR系统奠定了数据基础。

解决学术问题

该数据集有效解决了阿拉伯语ASR研究中数据稀缺和质量不均的学术难题。它通过提供大规模、结构化的语音转录对，促进了低资源语言语音技术的公平发展，并支持跨性别、跨口音的模型泛化研究。其细致的元数据标注，如句子边界预测和人工审核标志，为探索语音分段、噪声鲁棒性等核心问题提供了实证支撑，推动了多模态语言处理的理论进展。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于Hamsa-Conversational模型的语音识别流水线优化，以及针对阿拉伯语语音特征的声学模型适配。这些工作进一步探索了多说话人场景下的识别鲁棒性，并利用其句子边界预测特征开发了端到端语音分段算法，为后续的低资源语言ASR研究提供了可复现的基准和创新的方法论启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集