LAHAJA

Name: LAHAJA
Creator: 印度理工学院马德拉斯分校
Published: 2024-08-21 16:51:00
License: 暂无描述

arXiv2024-08-21 更新2024-08-23 收录

下载链接：

https://github.com/AI4Bharat/Lahaja

下载链接

链接失效反馈

官方服务：

资源简介：

LAHAJA数据集由印度理工学院马德拉斯分校的AI4Bharat团队创建，旨在评估多口音的印度语自动语音识别系统。该数据集包含12.5小时的印度语音频，来自132名说话者，覆盖了印度的83个地区。数据集的内容包括阅读和即兴演讲，涉及多个领域和使用场景。数据集的创建过程包括招募参与者、数据收集、转录和统计分析。LAHAJA数据集主要应用于语音识别技术的研究和开发，特别是在处理印度语的多口音问题上。

提供机构：

印度理工学院马德拉斯分校

创建时间：

2024-08-21

原始信息汇总

LAHAJA 数据集概述

数据集介绍

LAHAJA 是一个用于评估印度语（Hindi）自动语音识别（ASR）系统的多口音基准测试数据集。该数据集包含12.5小时的印度语音频，由来自印度83个地区的132名说话者提供，涵盖了阅读和即兴演讲等多种主题和用例。

数据集资源

资源名称	链接
数据集	Lahaja
模型 - M1	即将到来
模型 - M2	即将到来
模型 - M3	即将到来
模型 - M4	即将到来

数据集详情

数据集包含以下内容：

audio 文件夹：包含所有语音数据。
meta-data-lahaja.csv 映射文件：包含转录文本及说话者详细信息。

CSV文件内容

verbatim：转录文本的逐字版本。
normalized：转录文本的规范化版本。
duration：音频录制时长（秒）。
scenario：语音数据类型（阅读/即兴）。
fname：文件名。
native_language：参与者的母语。
gender：性别（男/女）。
age_group：参与者的年龄组。
native_state：说话者的原籍州。
native_district：说话者的原籍区。
sp_id：唯一说话者ID。
text：规范化转录文本的清洁版本（去除括号）。
lang：语言ID（hi）。
job_category：说话者的工作类别。
occupation_domain：说话者的职业领域（教育与研究、医疗保健[医疗与制药]、政府、技术与服务、信息与媒体、金融服务[银行与保险]、运输与物流、娱乐、社会服务、制造业与零售）。
occupation：说话者的职业。
job_type：说话者的工作类别（兼职、全职、其他）。
age-group：说话者的年龄组（18-30、30-45、45-60、60+）。
qual：说话者的最高教育资格。

数据集文件结构

Lahaja ├── audio │ ├── <filename>.wav │ . │ . │ . └── meta-data-lahaja.csv

搜集汇总

数据集介绍

构建方式

LAHAJA数据集的构建方式包括招募来自印度18个州的132名参与者，其中122名为非母语者，他们使用Hindi作为第二、第三或第四语言。参与者来自不同的年龄、职业和教育背景，涵盖了印度宪法承认的22种语言中的19种，以及4个不同的语言家族。数据收集包括朗读、与语音助手的数字交互和即兴对话。朗读材料包括来自维基百科文章的1000个句子，数字交互包括与家庭助理、数字支付服务、在线购物和政府服务的交互，即兴对话包括来自21个领域的问题。录音使用Microsoft的Karya平台进行，转录使用Shoonya平台，并由有经验的转录人员进行校对。

使用方法

LAHAJA数据集可以用于评估和训练Hindi ASR系统。评估可以使用Word Error Rate (WER)作为指标，将现有的开源和商业模型在LAHAJA上的性能进行比较。训练可以使用Conformer架构的模型，使用不同的数据源进行微调和训练。LAHAJA数据集还包含代码、数据和模型，可供研究人员使用和进一步研究。

背景与挑战

背景概述

LAHAJA数据集是由AI4Bharat和印度理工学院马德拉斯分校的研究人员创建的，旨在为评估印地语自动语音识别（ASR）系统在多种口音下的鲁棒性提供一个基准。印地语作为印度最广泛使用的语言之一，其使用者遍布全国各地，由于区域差异和主要语言的影响，口音呈现出多样性。因此，开发能够适应多种口音的ASR系统对于提高语音识别的准确性和实用性至关重要。LAHAJA数据集包含了12.5小时的印地语音频，来自132位讲者，这些讲者来自印度83个区，涵盖了19种印度宪法承认的语言，分属4个不同的语系。该数据集包括朗读、与语音助手的数字互动以及即兴对话，旨在全面评估ASR系统在不同场景下的表现。研究结果表明，现有开源和商业模型在LAHAJA上的表现不佳，而基于多语言数据进行训练的模型则显示出显著的性能提升。

当前挑战

LAHAJA数据集面临的挑战主要包括：1)所解决的领域问题，即印地语ASR系统在处理多种口音时的准确性和鲁棒性不足；2)构建过程中遇到的挑战，例如招募来自不同地区的非印地语母语者参与录音，确保数据的多样性和代表性。此外，LAHAJA数据集还揭示了ASR系统在处理来自东北部和南部印度的讲者，以及内容丰富的命名实体和专业术语时的性能下降。这些挑战突显了在低资源多语言环境中训练ASR模型的必要性，以及合成代码混合数据的潜在价值。为了进一步推动多口音印地语ASR系统的研究，研究团队将所有代码、数据集、模型和脚本公开，以促进社区内的研究和开发。

常用场景

经典使用场景

LAHAJA数据集被广泛应用于评估印度语自动语音识别（ASR）系统的鲁棒性。该数据集包含了来自印度83个地区的132位说话者的12.5小时印度语音频，涵盖了多种口音和多种主题。这使得LAHAJA成为评估多口音印度语ASR系统性能的理想基准。通过在LAHAJA上进行评估，研究人员可以了解现有ASR模型在不同口音和内容类别上的表现，从而为模型的改进提供依据。

解决学术问题

LAHAJA数据集解决了印度语ASR系统在多口音环境下的性能评估问题。由于印度语的使用者来自不同的语言背景，因此存在着显著的口音差异。然而，现有的印度语ASR数据集大多只包含来自单一地区的说话者，无法有效地评估模型在不同口音下的性能。LAHAJA数据集的发布填补了这一空白，为印度语ASR系统的多口音评估提供了可靠的基准。

实际应用

LAHAJA数据集的实际应用场景广泛，包括但不限于智能语音助手、数字支付服务、在线政府服务和在线杂货购物等。这些场景中的语音交互往往包含数字序列、字母数字代码、品牌名称、产品名称、银行名称、政府计划名称、特定领域的术语以及代码混合内容（英语-印度语）。LAHAJA数据集的多样性使得ASR系统能够更好地理解和处理这些内容，从而提高用户体验。此外，LAHAJA数据集还可以用于语音识别系统的开发、测试和优化，以适应不同口音和内容的需求。

数据集最近研究