vistaar_small_asr_eval
收藏Hugging Face2025-10-23 更新2025-10-24 收录
下载链接:
https://huggingface.co/datasets/AdityK2409/vistaar_small_asr_eval
下载链接
链接失效反馈官方服务:
资源简介:
Vistaar Small ASR Eval是一个多语言自动语音识别评估数据集,包含9486个音频样本,覆盖12种印度语言。该数据集是从AI4Bharat发布的更大规模Vistaar数据集中提取的子集,旨在评估ASR模型在多样化印度语言语音数据上的性能。数据集分为不同的子集,每个子集具有独特的特征,并且数据集支持12种印度语言。
创建时间:
2025-10-22
原始信息汇总
Vistaar Small ASR Eval 数据集概述
数据集基本信息
- 许可证: MIT
- 任务类别: 自动语音识别、文本转语音
- 语言: 英语
- 标签: 数据集、音频、语音、ASR
- 数据集名称: Vistaar Small Asr Eval
- 规模分类: 1K<n<10K
数据集描述
Vistaar Small ASR Eval 是一个多语言自动语音识别评估数据集,包含12种印度语言的9,486个音频样本。该数据集是AI4Bharat发布的大型Vistaar数据集的子集,专门用于评估ASR模型在不同印度语言语音数据上的性能。创建较小的评估数据集用于需要快速模型基准测试的用例。
数据集统计
- 总样本数: 9,486
- 语言数量: 12种印度语言
- 总时长: 约18.6小时
- 用途: ASR模型评估和基准测试
数据集结构
配置信息
数据集包含12种语言配置:
| 语言代码 | 测试集样本数 | 下载大小 | 数据集大小 |
|---|---|---|---|
| bn | 1,182 | 502,350,000 | 591,000,000 |
| gu | 893 | 379,525,000 | 446,500,000 |
| hi | 973 | 413,525,000 | 486,500,000 |
| kn | 476 | 202,300,000 | 238,000,000 |
| ml | 511 | 217,175,000 | 255,500,000 |
| mr | 747 | 317,475,000 | 373,500,000 |
| or | 1,114 | 473,450,000 | 557,000,000 |
| pa | 1,164 | 431,303,495 | 831,795,504 |
| sa | 436 | 123,832,481 | 471,815,538 |
| ta | 2,716 | 1,064,438,420 | 2,108,888,394 |
| te | 1,504 | 693,433,818 | 1,420,154,474 |
| ur | 680 | 289,000,000 | 340,000,000 |
数据特征
所有配置包含以下特征字段:
- md5_text: 字符串
- file_name: 字符串
- audio: 音频(采样率16,000 Hz)或字符串
- md5_audio: 字符串
- duration: 浮点数
- text: 字符串
- audio_language: 字符串
- text_language: 字符串
- source: 字符串
- text_len: 整数
数据子集
数据集包含六个不同的子集:
| 子集 | 样本数 | 时长 |
|---|---|---|
| Kathbath | 1,962 | 3.7小时 |
| Kathbath Hard | 1,962 | 3.7小时 |
| MUCS | 1,786 | 2.5小时 |
| Common Voice | 1,775 | 2.8小时 |
| FLEURS | 1,101 | 3.7小时 |
| IndicTTS | 900 | 2.2小时 |
使用方式
python from datasets import load_dataset
加载特定语言子集和分割
dataset = load_dataset(ekacare/vistaar_small_asr_eval, bn, split=test)
加载特定语言的所有分割
dataset = load_dataset(ekacare/vistaar_small_asr_eval, bn)
加载完整数据集(所有语言和子集)
dataset = load_dataset(ekacare/vistaar_small_asr_eval)
搜集汇总
数据集介绍

构建方式
在自动语音识别技术快速发展的背景下,Vistaar Small ASR Eval数据集通过精心筛选AI4Bharat发布的原始Vistaar语料构建而成。该数据集采用多源数据融合策略,整合了Kathbath、MUCS、Common Voice等六个不同来源的语音样本,每个子集均经过严格的音频质量筛选和文本对齐处理。构建过程中保持了16kHz采样率的统一音频规格,并针对12种印度语言分别建立独立配置,确保评估数据的代表性和可比性。
特点
作为面向印度多语言场景的评估数据集,其显著特征体现在语言多样性和结构规范性。数据集涵盖孟加拉语、古吉拉特语、印地语等12种印度主要语言,共计9486个标注样本,总时长约18.6小时。每个样本均包含音频文件、转写文本及元数据信息,其中音频语言与文本语言严格对应,并配备MD5校验码确保数据完整性。数据划分采用标准化测试集设计,为跨语言ASR模型性能评估提供可靠基准。
使用方法
在语音识别研究领域,该数据集可通过HuggingFace平台便捷加载。使用者只需调用datasets库的load_dataset函数,指定数据集名称即可访问全部语言配置,亦可按需选择特定语言子集。以加载孟加拉语测试集为例,通过配置参数'bn'和'split=test'即可获取对应音频文本对。这种模块化设计支持研究人员进行单语言深度分析或多语言对比实验,为印度语系ASR系统的性能验证提供标准化测试环境。
背景与挑战
背景概述
随着语音识别技术在印度多语言环境中的广泛应用,AI4Bharat研究机构于近年开发了Vistaar数据集,旨在解决印度本土语言自动语音识别系统评估的标准化需求。该数据集作为原始Vistaar的精简版本,专门针对快速模型基准测试场景设计,涵盖12种印度语言共9486个音频样本,总时长约18.6小时。其核心价值在于为南亚语言社区提供了首个系统性的多语言语音评估基准,通过整合Kathbath、MUCS等六个异构数据子集,显著提升了印度语系语音技术研究的可复现性与可比性。
当前挑战
在语音识别领域,该数据集主要应对印度语言音系多样性带来的模型泛化挑战,包括达罗毗荼语系与印欧语系间的音位对立、方言连续体现象导致的标注歧义。构建过程中面临多源数据融合的技术难点,需协调六个独立采集项目的音频编码标准与文本转写规范,同时克服部分低资源语言如梵语、奥里亚语的专业标注人员稀缺问题。数据质量控制方面还需平衡不同子集的采样频率差异,确保跨语言评估的声学特征一致性。
常用场景
经典使用场景
在语音技术研究领域,该数据集作为多语言自动语音识别系统的标准化评估基准,广泛应用于模型性能的横向对比分析。其覆盖12种印度语言的特点使研究者能够系统考察跨语言语音识别中的音素差异、声学模型泛化能力等核心问题,为构建包容性语音技术提供了关键实验平台。
解决学术问题
该数据集有效解决了低资源语言语音识别研究中数据稀缺的瓶颈问题,通过标准化测试集显著提升了模型评估的可复现性。其多源数据融合特性助力研究者深入探索方言变异、语码转换等语言现象对识别准确率的影响,推动了语音技术公平性研究的纵深发展。
衍生相关工作
基于该数据集衍生的经典研究包括多任务学习框架下的方言自适应方法、跨语言迁移学习策略等创新方向。这些工作通过利用数据集的多语言特性,显著提升了端到端语音识别模型在低资源语言上的表现,推动了语音技术民主化进程。
以上内容由遇见数据集搜集并总结生成



