Svarah
收藏Hugging Face2025-03-07 更新2025-03-08 收录
下载链接:
https://huggingface.co/datasets/ai4bharat/Svarah
下载链接
链接失效反馈官方服务:
资源简介:
Svarah是一个包含印度各种口音的英语语音数据集,旨在评估英语自动语音识别系统在处理印度口音时的性能。该数据集包含了来自印度19个州的65个地区的117位说话者的9.6小时转录英语音频,涵盖了19种宪法承认的语言,跨越了4个语言家族。数据集包括朗读和自发对话数据,覆盖了历史、文化、旅游、政府、体育以及现实世界的使用案例,如订购杂货、数字支付和访问政府服务等。
Svarah is an English speech dataset encompassing various Indian accents, designed to evaluate the performance of automatic speech recognition (ASR) systems when handling Indian-accented English. This dataset includes 9.6 hours of transcribed English audio from 117 speakers across 65 regions in 19 Indian states, covering 19 constitutionally recognized languages spanning four language families. The dataset comprises both read speech and spontaneous conversational data, covering topics such as history, culture, tourism, government affairs, sports, as well as real-world use cases including grocery ordering, digital payment, and accessing government services.
创建时间:
2025-03-05
搜集汇总
数据集介绍

构建方式
Svarah数据集的构建旨在填补印度口音英语在自动语音识别(ASR)领域的数据空白。该数据集由9.6小时转录的英语音频组成,涉及117位来自印度19个州的65个地区的演讲者,涵盖了丰富的口音多样性。数据集的构建不仅包括了朗读语音,亦包含了自发对话数据,这些数据覆盖了历史、文化、旅游、政府、体育等多个领域,以及诸如订购杂货、数字支付、查询政府服务等现实世界的应用场景。
特点
Svarah数据集的特点在于其多元化的语言背景和地理分布,涵盖了印度宪法认可的22种语言中的19种,跨越了四个语言家族。数据集中演讲者的母语和地区差异为研究印度口音对ASR性能的影响提供了宝贵的资源。此外,数据集的开放性和多样性使其成为评估和改进英语ASR系统对印度口音处理能力的理想工具。
使用方法
使用Svarah数据集时,用户可通过HuggingFace的datasets库直接在Python中加载和预处理数据。在加载前,用户需要确保拥有有效的HuggingFace访问令牌。数据集支持常规加载和流式加载,后者允许逐个处理数据项,从而节省内存。具体加载方式包括指定数据集的split参数和是否启用streaming模式。
背景与挑战
背景概述
Svarah数据集的构建旨在解决印度英语口音在自动语音识别(ASR)系统中代表性不足的问题。该数据集由印度理工学院马德拉斯分校的研究团队于2023年创建,收集了来自印度19个州65个地区的117位讲者的9.6小时英语音频转录,涵盖多种印度英语口音。讲者的母语包括印度宪法认可的22种语言中的19种,跨越了四个语言家族。Svarah数据集包含了朗读和自发对话的语音数据,覆盖了历史、文化、旅游、政府、体育等众多领域,以及诸如订购杂货、数字支付、访问政府服务等现实世界的应用场景。该数据集的发布,为评估和提高英语ASR系统对印度口音的处理能力提供了重要的基准。
当前挑战
Svarah数据集面临的挑战主要包括:1)印度英语口音的多样性为ASR系统的准确识别带来了困难;2)构建过程中,收集和标注具有代表性的广泛口音的语音数据,确保数据质量和多样性,是一大挑战;3)如何有效利用这些数据来提升现有ASR模型对印度口音的识别准确性和鲁棒性;4)此外,还需考虑数据隐私和讲者同意的问题,确保在遵守相关法律法规的前提下进行数据收集和使用。
常用场景
经典使用场景
在语音识别研究领域,Svarah数据集的典型应用场景是评估和改进自动语音识别(ASR)系统对印度口音英语的处理能力。该数据集通过提供涵盖多种印度口音的英语语音样本,使得研究人员能够训练和测试ASR模型,以提高其在实际应用中对印度英语使用者的识别准确性。
实际应用
实际应用中,Svarah数据集可被用于优化语音助手、客户服务机器人以及任何需要语音输入的交互式系统,特别是在印度等多元口音环境中,有助于提高这些系统的准确性和用户体验。
衍生相关工作
基于Svarah数据集,研究者们已经开展了一系列相关工作,包括但不限于对现有ASR模型的性能评估、印度口音的语音识别算法改进,以及跨语言和跨口音的语音识别研究,推动了语音识别技术的进步和普及。
以上内容由遇见数据集搜集并总结生成



