five

speed-tb/testgloss

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/speed-tb/testgloss
下载链接
链接失效反馈
官方服务:
资源简介:
Glossing Test 4是一个用于自动语音识别(ASR)任务的数据集,主要包含印地语(hi)的音频文件及其对应的文本转录。数据集按训练集等划分组织,每行数据包含音频文件路径、唯一标识符、原始文件名、转录文本、说话者ID、时间边界信息等元数据。该数据集采用CC-BY-NC-SA-4.0许可证,仅允许非商业用途下的使用和修改。如需商业用途,需联系数据集提供方。

Glossing Test 4 is a dataset for automatic speech recognition (ASR) tasks, primarily containing audio files in Hindi (hi) and their corresponding text transcriptions. The dataset is organized by splits such as train, with each row containing metadata including audio file path, unique identifier, original filename, transcription text, speaker ID, time boundary information, etc. The dataset is licensed under CC-BY-NC-SA-4.0, allowing use and modification only for non-commercial purposes. Commercial use requires contacting the dataset provider.
提供机构:
speed-tb
搜集汇总
数据集介绍
main_image_url
构建方式
testgloss数据集由Ritesh Kumar等贡献者构建,专注于印地语自动语音识别任务。数据集以音频文件为核心,每条样本包含音频路径、唯一标识符、原始文件名、多种脚本下的文本转录、说话人信息、时间边界标注以及TextGrid格式的JSON数据。数据按训练集、测试集、验证集等划分存储,组织清晰,便于直接用于端到端语音识别模型的训练与评估。
特点
该数据集具有多维度标注的特色,不仅提供音频与文本对应的基础转录,还融合了说话人标识、时间边界及精细的TextGrid结构信息,能够支持对齐分析、说话人识别等进阶研究。数据来源于真实生活应用场景,语言为印地语,涵盖了丰富的口语表达与环境变化,增加了数据集的多样性和实用性,为非商业学术研究提供了高质量资源。
使用方法
使用testgloss数据集时,可通过HuggingFace Datasets库直接加载,指定配置名称和划分名称即可获取包含音频、文本及元数据的数据对象。用户可根据任务需求提取音频特征进行语音识别建模,或利用文本转录与时间边界信息进行声学-语言模型对齐。数据集采用CC-BY-NC-SA-4.0许可,仅限非商业用途,商用需联系版权方获取授权。
背景与挑战
背景概述
在自动语音识别(ASR)领域,针对低资源语言和特定应用场景的数据集构建一直是研究的热点与难点。testgloss数据集于近期由Ritesh Kumar等研究人员主导创建,隶属于LifeApp项目,旨在为印地语(Hindi)提供标注精细的语音转写资源。该数据集聚焦于语音信号中的词汇边界标注与多种文字转写(sentence-<SCRIPT>-transcription),为研究音素与正字法之间的映射关系、提升ASR模型在口语边界识别上的鲁棒性提供了重要支撑。其非商业共享许可(CC-BY-NC-SA-4.0)鼓励学术社区广泛使用,对推动低资源印度语言语音处理技术的发展具有积极意义。
当前挑战
testgloss数据集所解决的领域核心挑战在于,标准ASR系统往往忽视口语中词汇边界的模糊性,导致转写准确率受限。该数据集通过引入边界ID(boundaryID)和精细的时间戳(start_time/end_time),迫使模型学习端到端边界感知的语音识别。构建过程中面临的主要挑战包括:印地语丰富的形态变化和连读现象使得边界标注标准难以统一;数据来源(LifeApp)可能包含背景噪声、不同口音和自发语音的多样性,增加了转写一致性的难度;此外,作为小规模测试集(仅标注约4个),如何保证标注信度并拓展至更大规模以支持深度学习训练,仍是亟需攻坚的难题。
常用场景
经典使用场景
在自动语音识别(ASR)领域,TestGloss数据集为印地语的低资源语音识别研究提供了珍贵的监督训练资源。该数据集包含与文本音标转录对齐的音频片段,每段音频均附有精确的时间边界、说话人身份及音韵层级标注(TextGrid格式),使其成为训练端到端语音识别模型或音素级对齐系统的理想选择。研究者可基于其多脚本转录字段(sentence-<SCRIPT>-transcription)开展跨文字系统的语音到文本映射实验,或利用边界信息进行语音分割与强制对齐任务的基准测试。
解决学术问题
TestGloss数据集的核心价值在于缓解印地语等低资源语言在语音处理研究中标注数据匮乏的困境。学术社区长期受困于非英语语言ASR系统的性能瓶颈,该数据集通过提供包含详细时序信息的结构化语音-文本配对样本,助力研究者探索说话人无关的鲁棒声学建模、跨方言语音识别泛化能力提升,以及基于有限标注数据的高效预训练策略。其存在直接推动了低资源场景下语音识别技术的可重复性验证,并促使学界重新审视数据标注质量对端到端模型收敛性的影响。
衍生相关工作
该数据集已衍生出若干关键性学术成果,主要包括针对低资源ASR的迁移学习框架与多任务联合建模方法。例如,研究者基于其时间边界标签开发了语音分割网络的轻量化变体(如Boundary-Aware Conformer架构);另有工作利用其多脚本转录特性构建了跨语言音素共享的预训练范式,显著降低了新语种ASR系统的适配成本。此外,围绕该数据集衍生出的强制对齐工具包已成为印地语语音语料库标准化处理的参考基准,推动了下游任务(如语音情感识别与关键词检出)的进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作