five

RinggAI/ASR-Benchmarking-Dataset

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/RinggAI/ASR-Benchmarking-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于印地语语音识别(STT)基准测试的数据集,包含六个部分:IndicTTS、FLEURS、CommonVoice、Kathbath、Kathbath noisy和MUCS。数据集包含10,000条语音样本,总计约15.5小时的16 kHz单声道WAV音频。每条样本包括原始参考文本以及来自Ringg、ElevenLabs、Deepgram和Sarvam的原始和标准化转录文本。数据集还提供了原始和标准化文本的词错误率(WER)统计信息。

This dataset packages the Hindi eval split used for STT benchmarking across six Vistaar-derived parts: IndicTTS, FLEURS, CommonVoice, Kathbath, Kathbath noisy, and MUCS. Each row contains the audio, original reference transcript, and raw plus normalized transcripts from Ringg, ElevenLabs, Deepgram, and Sarvam. The dataset contains 10,000 utterances and about 15.5 hours of 16 kHz mono WAV audio.
提供机构:
RinggAI
搜集汇总
数据集介绍
main_image_url
构建方式
ASR-Benchmarking-Dataset是一个专为印地语自动语音识别(ASR)模型性能评估而构建的基准数据集。该数据集精心整合了来自Vistaar项目的六个子集,包括IndicTTS、FLEURS、CommonVoice、Kathbath、Kathbath_noisy和MUCS,每个子集均以独立的配置形式呈现。每条数据包含原始音频、对应的参考转录文本,以及来自Ringg、ElevenLabs、Deepgram和Sarvam四个语音识别系统的原始与标准化转录结果。数据集共收录约10,000条语音,总时长约15.5小时,所有音频均统一转换为16kHz单声道WAV格式,以确保评估的一致性和公平性。
特点
该数据集的核心特点在于其多维度的评估框架。除了提供原始转录文本外,还包含经过标准化的转录列,标准化流程集成了去除标点、保留天城文和数字、借助AI4Bharat IndicXlit将纯英文单词音译为天城文,以及应用印地语组合验证和元音符号归一化规则。对于包含无效词的转录,相应标准化字段会被标记为<contains_invalid_words>,但数据行仍保留在集中,体现了数据的完整性。此外,数据集附带了详细的词错误率(WER)对比表格,涵盖原始与标准化两种计算方式,直观展示了不同ASR系统在各子集上的性能差异。
使用方法
用户可通过HuggingFace的datasets库便捷地加载该数据集。加载时需指定子集配置名称(如indictts、fleurs等)并选择eval划分,例如使用load_dataset("RinggAI/ASR-Benchmarking-Dataset", "indictts", split="eval")即可获取相应数据。对于大规模评估场景,支持启用streaming=True参数以流式加载数据,从而节省内存占用。数据集适合用于对比不同ASR系统在印地语语音识别上的表现,研究者可基于提供的转录文本和标准化结果,复现或扩展WER分析,或将其作为基准测试的一部分,推动印地语ASR技术的进步。
背景与挑战
背景概述
自动语音识别(ASR)技术作为人机交互的核心支柱之一,在全球化背景下对多语言、多口音的支持成为研究焦点。印地语作为印度使用最广泛的语言,其ASR系统性能的评估因缺乏统一、标准化的基准数据集而长期受限。针对这一缺口,RinggAI机构于近年整合了来自Vistaar项目的六大子集(IndicTTS、FLEURS、CommonVoice、Kathbath及其噪声变体、MUCS),构建了名为ASR-Benchmarking-Dataset的印地语语音识别评测集合,总计包含约一万条语音片段及15.5小时16kHz单声道WAV音频。该数据集不仅提供了原始转录,还纳入了Ringg、ElevenLabs等多款商用ASR引擎的标准化文本,为系统间的公平对比奠定了坚实基础。通过发布多种领域与噪声条件下的评测配置,该数据集显著推动了印地语ASR研究的规范化进程,成为评估模型鲁棒性与泛化能力的重要标杆。
当前挑战
印地语ASR领域面临的核心挑战在于其语言本身的复杂性——包括丰富的变音符(matra)、复合字符以及大量英语借词。现有系统在转录时的分词与规范化处理标准不一,导致词错误率(WER)比较缺乏一致性。该数据集在构建过程中遇到的困难包括:需对来自不同源的数据进行音频格式统一与转写对齐,例如确保16kHz采样率与Devanagari脚本的精确匹配;原数据集中存在无效词语,需设计文本规范化流水线进行清洗与保留,同时避免过度破坏转录完整性;跨子集的噪声水平差异(如Kathbath_noisy与干净语音)对系统鲁棒性提出了额外要求,而源数据的版权许可状态复杂,使得组合后的分发面临法律层面的不确定性。
常用场景
经典使用场景
在自动语音识别(ASR)领域,印度语言因其复杂的音韵系统和多样的方言而成为极具挑战性的研究对象。ASR-Benchmarking-Dataset作为专为印地语(Hindi)设计的标准化评测基准,整合了IndicTTS、FLEURS、CommonVoice、Kathbath、Kathbath noisy及MUCS六个具有代表性的子集,涵盖约1万条语音样本和15.5小时的16kHz单声道WAV音频。该数据集最常见的经典使用场景是作为统一的评测平台,用于比较不同ASR系统(如Ringg、ElevenLabs、Deepgram和Sarvam)在印地语语音识别任务上的原始词错误率(WER)与归一化词错误率。研究者可通过加载特定子集,系统性地评估模型在朗读式语音、嘈杂环境语音、多语种混合语音等异构条件下的表现,从而客观衡量各系统的鲁棒性与泛化能力。
实际应用
在工业应用层面,印地语作为印度使用最广泛的语言之一,其语音识别技术直接服务于智能客服、语音助手、会议转录及教育辅助等场景。该数据集为商用ASR服务商提供了贴近真实世界的测试环境,例如其子集覆盖了从实验室纯净语音(IndicTTS)到实际场景中含噪声的语音(Kathbath noisy),以及包含多语种混用的电话对话(MUCS)。通过在该基准上评测,企业能够筛选出在嘈杂与噪声环境下表现更稳健的模型,从而提升如车载语音交互、移动端语音输入等产品的用户体验。此外,数据集内置的归一化文本处理流程直接复用了工业级WER计算管线,确保了从实验室评测到生产部署的指标一致性,为印地语语音技术的商业化落地提供了可信的度量基础。
衍生相关工作
该数据集衍生了一系列推动印地语及低资源语言ASR前沿发展的相关工作。基准评测中归一化词错误率的大幅下降(如从原始WER 13.79%降至7.27%)直接验证了标准化预处理对评测公平性的关键影响,启发后续研究探索更精细的跨语言音素映射与再评分策略。基于该基准的对比分析,研究者揭示了不同模型在泛化处理天城体文字变体时的弱点,进而催生了针对性的大规模语言模型后处理模块设计与基于对比学习的噪声适应方法。此外,该数据集的子集划分格式与流式加载接口促进了多任务学习架构的评测,例如结合Kathbath与MUCS的联合训练方案被证实能在保持精度的同时提升对印度方言的建模能力,为构建统一的多语种ASR系统开辟了新路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作