Shrutilipi

Hugging Face2025-03-07 更新2025-03-08 收录

下载链接：

https://huggingface.co/datasets/ai4bharat/Shrutilipi

下载链接

链接失效反馈

官方服务：

资源简介：

Shrutilipi是一个包含12种印度语言的标注自动语音识别(ASR)语料库，通过挖掘全印度广播电台新闻简报中的音频和文本对获得，总数据量超过6400小时。语料库包含阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马哈拉施特拉语、尼泊尔语、奥里亚语、旁遮普语、梵语、泰米尔语和泰卢固语等语言的音频文件路径、文本、音频时长和语言类型信息。

Shrutilipi is a labeled automatic speech recognition (ASR) corpus covering 12 Indian languages. It is constructed by mining audio-text pairs from news bulletins of All India Radio (AIR), with a total dataset size exceeding 6400 hours. The corpus provides audio file paths, transcriptions, audio durations and language type information for speeches in Assamese, Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Nepali, Odia, Punjabi, Sanskrit, Tamil and Telugu.

创建时间：

2025-03-06

搜集汇总

数据集介绍

构建方式

Shrutilipi数据集通过挖掘来自全印度广播新闻公告的12种印度语言的并行音频和文本对构建而成，涵盖文档级别的数据。该数据集的构建注重于低资源语言的自动语音识别（ASR）系统的改进，通过公开数据的有效挖掘，为每种语言提供了大量的音频文本对。

特点

该数据集的特点在于其覆盖的语言种类众多，包含超过6400小时的数据，且均为带标签的ASR语料库。每种语言配置都有详细的音频文件路径、文本、持续时间以及语言类型的信息，适用于多种语言处理任务。此外，数据集遵循CC BY 4.0许可，保证了数据的开放性和可访问性。

使用方法

使用Shrutilipi数据集时，用户可通过HuggingFace的datasets库直接加载和预处理数据。在加载前，需要确保拥有一个有效的HuggingFace访问令牌。数据集可以以常规方式或流式处理方式加载，方便用户根据需求选择合适的数据处理方法。引用数据集时，应遵循提供的引文格式。

背景与挑战

背景概述

Shrutilipi语音识别数据集是在印度政府下属的Bhashini项目资助下，由AI4Bharat团队开发而成的。该数据集通过挖掘印度全境广播公司（All India Radio）的新闻简报，为12种低资源印度语言构建了超过6400小时的音频和文本对。这些语言包括孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马哈拉施特拉语、奥里亚语、旁遮普语、梵语、泰米尔语、泰卢固语和乌尔都语。该数据集的创建旨在提升低资源语言的自动语音识别（ASR）系统的性能。

当前挑战

在构建Shrutilipi数据集的过程中，研究人员面临了多个挑战。首先，从公开数据中挖掘高质量的音频和文本对是一大挑战，因为这需要处理大量的非结构化数据并确保音频与文本的精确对齐。其次，由于涉及多种低资源语言，构建一个能够覆盖这些语言广泛变体的数据集十分困难。此外，数据集的质量控制、语言识别的准确性以及跨语言差异的处理都是数据集构建过程中需要克服的重要挑战。

常用场景

经典使用场景

在语音识别领域，Shrutilipi数据集以其丰富的语言资源和精确的标注被广泛运用。该数据集通过挖掘公开的音频和文本对，为自动语音识别(ASR)系统提供了大量的训练材料，尤其是在处理低资源语言时，其经典使用场景包括构建和优化ASR模型，以实现更高准确率的语音转文本转换。

衍生相关工作

基于Shrutilipi数据集，研究者们已经衍生出了一系列相关工作，包括但不限于改进语音识别算法、构建跨语言的语音合成系统以及探索语音和文本数据挖掘的新方法。这些研究不仅推动了语音识别技术的进步，也为多模态数据处理和人工智能领域的发展做出了贡献。

数据集最近研究