LAHAJA

Name: LAHAJA
Creator: 印度理工学院马德拉斯分校
Published: 2024-08-21 16:51:00
License: 暂无描述

arXiv2024-08-21 更新2024-08-23 收录

下载链接：

https://github.com/AI4Bharat/Lahaja

下载链接

链接失效反馈

官方服务：

资源简介：

LAHAJA数据集由印度理工学院马德拉斯分校的AI4Bharat团队创建，旨在评估多口音的印度语自动语音识别系统。该数据集包含12.5小时的印度语音频，来自132名说话者，覆盖了印度的83个地区。数据集的内容包括阅读和即兴演讲，涉及多个领域和使用场景。数据集的创建过程包括招募参与者、数据收集、转录和统计分析。LAHAJA数据集主要应用于语音识别技术的研究和开发，特别是在处理印度语的多口音问题上。

The LAHAJA dataset was created by the AI4Bharat team at the Indian Institute of Technology Madras, aiming to evaluate multi-accent Indian language automatic speech recognition (ASR) systems. This dataset contains 12.5 hours of Indian speech audio, sourced from 132 speakers across 83 regions in India. The content of the dataset includes both read and impromptu speeches, covering multiple domains and application scenarios. The dataset creation process encompasses participant recruitment, data collection, transcription, and statistical analysis. The LAHAJA dataset is primarily used for the research and development of speech recognition technologies, particularly for addressing the multi-accent challenges in Indian language speech recognition.

提供机构：

印度理工学院马德拉斯分校

创建时间：

2024-08-21

原始信息汇总

LAHAJA 数据集概述

数据集介绍

LAHAJA 是一个用于评估印度语（Hindi）自动语音识别（ASR）系统的多口音基准测试数据集。该数据集包含12.5小时的印度语音频，由来自印度83个地区的132名说话者提供，涵盖了阅读和即兴演讲等多种主题和用例。

数据集资源

资源名称	链接
数据集	Lahaja
模型 - M1	即将到来
模型 - M2	即将到来
模型 - M3	即将到来
模型 - M4	即将到来

数据集详情

数据集包含以下内容：

audio 文件夹：包含所有语音数据。
meta-data-lahaja.csv 映射文件：包含转录文本及说话者详细信息。

CSV文件内容

verbatim：转录文本的逐字版本。
normalized：转录文本的规范化版本。
duration：音频录制时长（秒）。
scenario：语音数据类型（阅读/即兴）。
fname：文件名。
native_language：参与者的母语。
gender：性别（男/女）。
age_group：参与者的年龄组。
native_state：说话者的原籍州。
native_district：说话者的原籍区。
sp_id：唯一说话者ID。
text：规范化转录文本的清洁版本（去除括号）。
lang：语言ID（hi）。
job_category：说话者的工作类别。
occupation_domain：说话者的职业领域（教育与研究、医疗保健[医疗与制药]、政府、技术与服务、信息与媒体、金融服务[银行与保险]、运输与物流、娱乐、社会服务、制造业与零售）。
occupation：说话者的职业。
job_type：说话者的工作类别（兼职、全职、其他）。
age-group：说话者的年龄组（18-30、30-45、45-60、60+）。
qual：说话者的最高教育资格。

数据集文件结构

Lahaja ├── audio │ ├── <filename>.wav │ . │ . │ . └── meta-data-lahaja.csv

搜集汇总

数据集介绍

构建方式

LAHAJA数据集的构建方式包括招募来自印度18个州的132名参与者，其中122名为非母语者，他们使用Hindi作为第二、第三或第四语言。参与者来自不同的年龄、职业和教育背景，涵盖了印度宪法承认的22种语言中的19种，以及4个不同的语言家族。数据收集包括朗读、与语音助手的数字交互和即兴对话。朗读材料包括来自维基百科文章的1000个句子，数字交互包括与家庭助理、数字支付服务、在线购物和政府服务的交互，即兴对话包括来自21个领域的问题。录音使用Microsoft的Karya平台进行，转录使用Shoonya平台，并由有经验的转录人员进行校对。

使用方法

LAHAJA数据集可以用于评估和训练Hindi ASR系统。评估可以使用Word Error Rate (WER)作为指标，将现有的开源和商业模型在LAHAJA上的性能进行比较。训练可以使用Conformer架构的模型，使用不同的数据源进行微调和训练。LAHAJA数据集还包含代码、数据和模型，可供研究人员使用和进一步研究。

背景与挑战

背景概述

LAHAJA数据集是由AI4Bharat和印度理工学院马德拉斯分校的研究人员创建的，旨在为评估印地语自动语音识别（ASR）系统在多种口音下的鲁棒性提供一个基准。印地语作为印度最广泛使用的语言之一，其使用者遍布全国各地，由于区域差异和主要语言的影响，口音呈现出多样性。因此，开发能够适应多种口音的ASR系统对于提高语音识别的准确性和实用性至关重要。LAHAJA数据集包含了12.5小时的印地语音频，来自132位讲者，这些讲者来自印度83个区，涵盖了19种印度宪法承认的语言，分属4个不同的语系。该数据集包括朗读、与语音助手的数字互动以及即兴对话，旨在全面评估ASR系统在不同场景下的表现。研究结果表明，现有开源和商业模型在LAHAJA上的表现不佳，而基于多语言数据进行训练的模型则显示出显著的性能提升。

当前挑战

LAHAJA数据集面临的挑战主要包括：1)所解决的领域问题，即印地语ASR系统在处理多种口音时的准确性和鲁棒性不足；2)构建过程中遇到的挑战，例如招募来自不同地区的非印地语母语者参与录音，确保数据的多样性和代表性。此外，LAHAJA数据集还揭示了ASR系统在处理来自东北部和南部印度的讲者，以及内容丰富的命名实体和专业术语时的性能下降。这些挑战突显了在低资源多语言环境中训练ASR模型的必要性，以及合成代码混合数据的潜在价值。为了进一步推动多口音印地语ASR系统的研究，研究团队将所有代码、数据集、模型和脚本公开，以促进社区内的研究和开发。

常用场景

经典使用场景

LAHAJA数据集被广泛应用于评估印度语自动语音识别（ASR）系统的鲁棒性。该数据集包含了来自印度83个地区的132位说话者的12.5小时印度语音频，涵盖了多种口音和多种主题。这使得LAHAJA成为评估多口音印度语ASR系统性能的理想基准。通过在LAHAJA上进行评估，研究人员可以了解现有ASR模型在不同口音和内容类别上的表现，从而为模型的改进提供依据。

解决学术问题

LAHAJA数据集解决了印度语ASR系统在多口音环境下的性能评估问题。由于印度语的使用者来自不同的语言背景，因此存在着显著的口音差异。然而，现有的印度语ASR数据集大多只包含来自单一地区的说话者，无法有效地评估模型在不同口音下的性能。LAHAJA数据集的发布填补了这一空白，为印度语ASR系统的多口音评估提供了可靠的基准。

实际应用

LAHAJA数据集的实际应用场景广泛，包括但不限于智能语音助手、数字支付服务、在线政府服务和在线杂货购物等。这些场景中的语音交互往往包含数字序列、字母数字代码、品牌名称、产品名称、银行名称、政府计划名称、特定领域的术语以及代码混合内容（英语-印度语）。LAHAJA数据集的多样性使得ASR系统能够更好地理解和处理这些内容，从而提高用户体验。此外，LAHAJA数据集还可以用于语音识别系统的开发、测试和优化，以适应不同口音和内容的需求。

数据集最近研究