five

SRUTI

收藏
arXiv2025-06-11 更新2025-06-13 收录
下载链接:
https://github.com/AI4Bharat/Sruti
下载链接
链接失效反馈
官方服务:
资源简介:
SRUTI是一个为印度农村博杰普里语妇女设计的语音识别基准数据集,包含约64.8小时的语音数据,其中17小时已转录。数据集涵盖健康、农业、治理和金融等关键领域,旨在促进农村妇女的数字包容性。数据收集面临诸多挑战,包括信任障碍、社会规范、人口统计学考虑、数据收集提示设计、社区参与和意识、现场数据收集以及转录等。最终,SRUTI数据集的创建为低资源语言的语音识别系统训练提供了宝贵的资源。

SRUTI is a speech recognition benchmark dataset designed for rural Bhojpuri-speaking women in India. It contains approximately 64.8 hours of speech data, among which 17 hours have been transcribed. The dataset covers key domains including health, agriculture, governance and finance, aiming to promote digital inclusion for rural women. Numerous challenges were encountered during data collection, including trust barriers, social norms, demographic considerations, data collection prompt design, community engagement and awareness, on-site data collection and transcription. Ultimately, the creation of the SRUTI dataset provides a valuable resource for training speech recognition systems for low-resource languages.
提供机构:
印度理工学院马德拉斯分校AI4Bharat
创建时间:
2025-06-11
搜集汇总
数据集介绍
main_image_url
构建方式
SRUTI数据集的构建过程体现了对低资源语言环境下语音识别的深度探索。研究团队通过与印度北方邦农村地区的Bhojpuri女性社群合作,采用多阶段数据采集策略:首先通过当地卫生工作者建立信任关系,随后使用定制化移动应用在政府卫生中心等可信场所收集语音样本。数据采集特别关注农业、健康、金融和政府服务四个关键领域,同时包含朗读文本和即兴对话两种语音模式。为解决转录难题,团队开发了Bhojpuri专用转录规范,并实施双层审核机制确保质量。最终构建的基准数据集包含51位说话者72分钟的标注语音,以及用于语音合成的100位说话者39.4分钟样本。
特点
该数据集最显著的特点是针对印度农村边缘化群体的真实语言环境构建。语音样本采集自北方邦三个方言差异明显的农村地区,说话者覆盖18-60岁以上不同教育背景的年龄层,有效捕捉了Bhojpuri语言的方言变异和社会语言学特征。数据内容特别强调数字包容性相关的功能领域,包含政府服务查询、医疗咨询等实用对话场景。数据集还创新性地整合了通过多语言语音合成模型生成的100小时合成语音,其中32.5小时专门针对目标领域优化,为低资源语言研究提供了宝贵的数据增强范例。
使用方法
SRUTI数据集主要服务于提升低资源语言的自动语音识别(ASR)系统性能。研究者可通过基准测试评估模型在乡村女性语音上的识别准确率,原始数据包含已标注的测试集和未标注的扩展集。合成语音部分建议用于训练数据增强,实验表明结合印地语数据可降低4.7%的词错误率。使用时应特别注意领域适配,政府服务等专业领域的文本合成能带来更显著的性能提升。数据集配套提供说话者年龄、地域等元数据,支持针对不同人口统计群体的差异化分析。为保持研究伦理性,建议使用者在后续应用中遵循原始数据收集时的知情同意原则。
背景与挑战
背景概述
SRUTI数据集由AI4Bharat团队于2025年创建,旨在解决印度农村博杰普尔语女性群体在自动语音识别(ASR)技术中的边缘化问题。作为首个专注于该群体的语音基准数据集,其核心研究聚焦于农业服务、金融交易、政府计划和医疗保健四大关键领域,通过语音技术赋能农村女性数字包容。该数据集包含64.8小时真实语音和100小时合成语音,填补了低资源语言在ASR领域的空白,为后续研究提供了重要基础。
当前挑战
该数据集面临双重挑战:在领域问题层面,现有ASR模型对博杰普尔语的识别词错误率高达33.3%,显著高于印地语15%的水平,凸显低资源语言模型性能瓶颈;在构建过程中,需克服农村地区数据采集的社会文化障碍,包括参与者信任建立、女性协调员必要性等,同时解决缺乏标准化转录规范及熟练转录员短缺等问题。合成数据生成环节还需应对种子数据稀缺和跨语言语音合成的技术难题。
常用场景
经典使用场景
SRUTI数据集作为面向印度农村博杰普尔语女性的语音识别基准,其经典使用场景主要集中在低资源语言的自动语音识别(ASR)系统开发与评估。该数据集通过覆盖农业、医疗、金融和政府服务四大关键领域,为研究者提供了真实场景下的语音样本,特别适用于测试模型在口音多样性、教育背景差异及环境噪声干扰下的鲁棒性。其合成数据生成方法进一步拓展了应用场景,使得在小样本条件下提升ASR性能成为可能。
解决学术问题
SRUTI数据集有效解决了低资源语言ASR研究中的核心难题:数据稀缺性与群体代表性不足。通过融合真实采集与跨语言合成技术,该工作突破了传统数据收集的社会文化壁垒,为博杰普尔语等弱势语言提供了可扩展的解决方案。实验表明,仅需100名说话人各25-30秒的原始语音,通过合成数据增强可使词错误率(WER)降低4.7个百分点,这为资源匮乏地区的语音技术公平性研究确立了新范式。
衍生相关工作
该数据集推动了多项低资源语音技术的创新研究,包括基于提示的多语言语音合成迁移、跨语言ASR模型优化等方向。其合成数据生成策略被后续工作如IndicVoices等项目扩展应用至更多印度方言。相关成果还促进了语音技术伦理标准的讨论,催生了针对农村女性用户的交互设计研究,形成技术开发与社会科学的交叉创新脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作