five

LAHAJA

收藏
arXiv2024-08-21 更新2024-08-23 收录
下载链接:
https://github.com/AI4Bharat/Lahaja
下载链接
链接失效反馈
官方服务:
资源简介:
LAHAJA数据集由印度理工学院马德拉斯分校的AI4Bharat团队创建,旨在评估多口音的印度语自动语音识别系统。该数据集包含12.5小时的印度语音频,来自132名说话者,覆盖了印度的83个地区。数据集的内容包括阅读和即兴演讲,涉及多个领域和使用场景。数据集的创建过程包括招募参与者、数据收集、转录和统计分析。LAHAJA数据集主要应用于语音识别技术的研究和开发,特别是在处理印度语的多口音问题上。
提供机构:
印度理工学院马德拉斯分校
创建时间:
2024-08-21
原始信息汇总

LAHAJA 数据集概述

数据集介绍

LAHAJA 是一个用于评估印度语(Hindi)自动语音识别(ASR)系统的多口音基准测试数据集。该数据集包含12.5小时的印度语音频,由来自印度83个地区的132名说话者提供,涵盖了阅读和即兴演讲等多种主题和用例。

数据集资源

资源名称 链接
数据集 Lahaja
模型 - M1 即将到来
模型 - M2 即将到来
模型 - M3 即将到来
模型 - M4 即将到来

数据集详情

数据集包含以下内容:

  • audio 文件夹:包含所有语音数据。
  • meta-data-lahaja.csv 映射文件:包含转录文本及说话者详细信息。

CSV文件内容

  • verbatim:转录文本的逐字版本。
  • normalized:转录文本的规范化版本。
  • duration:音频录制时长(秒)。
  • scenario:语音数据类型(阅读/即兴)。
  • fname:文件名。
  • native_language:参与者的母语。
  • gender:性别(男/女)。
  • age_group:参与者的年龄组。
  • native_state:说话者的原籍州。
  • native_district:说话者的原籍区。
  • sp_id:唯一说话者ID。
  • text:规范化转录文本的清洁版本(去除括号)。
  • lang:语言ID(hi)。
  • job_category:说话者的工作类别。
  • occupation_domain:说话者的职业领域(教育与研究、医疗保健[医疗与制药]、政府、技术与服务、信息与媒体、金融服务[银行与保险]、运输与物流、娱乐、社会服务、制造业与零售)。
  • occupation:说话者的职业。
  • job_type:说话者的工作类别(兼职、全职、其他)。
  • age-group:说话者的年龄组(18-30、30-45、45-60、60+)。
  • qual:说话者的最高教育资格。

数据集文件结构

Lahaja ├── audio │ ├── <filename>.wav │ . │ . │ . └── meta-data-lahaja.csv

搜集汇总
数据集介绍
main_image_url
构建方式
LAHAJA数据集的构建方式包括招募来自印度18个州的132名参与者,其中122名为非母语者,他们使用Hindi作为第二、第三或第四语言。参与者来自不同的年龄、职业和教育背景,涵盖了印度宪法承认的22种语言中的19种,以及4个不同的语言家族。数据收集包括朗读、与语音助手的数字交互和即兴对话。朗读材料包括来自维基百科文章的1000个句子,数字交互包括与家庭助理、数字支付服务、在线购物和政府服务的交互,即兴对话包括来自21个领域的问题。录音使用Microsoft的Karya平台进行,转录使用Shoonya平台,并由有经验的转录人员进行校对。
使用方法
LAHAJA数据集可以用于评估和训练Hindi ASR系统。评估可以使用Word Error Rate (WER)作为指标,将现有的开源和商业模型在LAHAJA上的性能进行比较。训练可以使用Conformer架构的模型,使用不同的数据源进行微调和训练。LAHAJA数据集还包含代码、数据和模型,可供研究人员使用和进一步研究。
背景与挑战
背景概述
LAHAJA数据集是由AI4Bharat和印度理工学院马德拉斯分校的研究人员创建的,旨在为评估印地语自动语音识别(ASR)系统在多种口音下的鲁棒性提供一个基准。印地语作为印度最广泛使用的语言之一,其使用者遍布全国各地,由于区域差异和主要语言的影响,口音呈现出多样性。因此,开发能够适应多种口音的ASR系统对于提高语音识别的准确性和实用性至关重要。LAHAJA数据集包含了12.5小时的印地语音频,来自132位讲者,这些讲者来自印度83个区,涵盖了19种印度宪法承认的语言,分属4个不同的语系。该数据集包括朗读、与语音助手的数字互动以及即兴对话,旨在全面评估ASR系统在不同场景下的表现。研究结果表明,现有开源和商业模型在LAHAJA上的表现不佳,而基于多语言数据进行训练的模型则显示出显著的性能提升。
当前挑战
LAHAJA数据集面临的挑战主要包括:1)所解决的领域问题,即印地语ASR系统在处理多种口音时的准确性和鲁棒性不足;2)构建过程中遇到的挑战,例如招募来自不同地区的非印地语母语者参与录音,确保数据的多样性和代表性。此外,LAHAJA数据集还揭示了ASR系统在处理来自东北部和南部印度的讲者,以及内容丰富的命名实体和专业术语时的性能下降。这些挑战突显了在低资源多语言环境中训练ASR模型的必要性,以及合成代码混合数据的潜在价值。为了进一步推动多口音印地语ASR系统的研究,研究团队将所有代码、数据集、模型和脚本公开,以促进社区内的研究和开发。
常用场景
经典使用场景
LAHAJA数据集被广泛应用于评估印度语自动语音识别(ASR)系统的鲁棒性。该数据集包含了来自印度83个地区的132位说话者的12.5小时印度语音频,涵盖了多种口音和多种主题。这使得LAHAJA成为评估多口音印度语ASR系统性能的理想基准。通过在LAHAJA上进行评估,研究人员可以了解现有ASR模型在不同口音和内容类别上的表现,从而为模型的改进提供依据。
解决学术问题
LAHAJA数据集解决了印度语ASR系统在多口音环境下的性能评估问题。由于印度语的使用者来自不同的语言背景,因此存在着显著的口音差异。然而,现有的印度语ASR数据集大多只包含来自单一地区的说话者,无法有效地评估模型在不同口音下的性能。LAHAJA数据集的发布填补了这一空白,为印度语ASR系统的多口音评估提供了可靠的基准。
实际应用
LAHAJA数据集的实际应用场景广泛,包括但不限于智能语音助手、数字支付服务、在线政府服务和在线杂货购物等。这些场景中的语音交互往往包含数字序列、字母数字代码、品牌名称、产品名称、银行名称、政府计划名称、特定领域的术语以及代码混合内容(英语-印度语)。LAHAJA数据集的多样性使得ASR系统能够更好地理解和处理这些内容,从而提高用户体验。此外,LAHAJA数据集还可以用于语音识别系统的开发、测试和优化,以适应不同口音和内容的需求。
数据集最近研究
最新研究方向
LAHAJA数据集的创建为评估印地语语音识别(ASR)系统在不同口音下的表现提供了重要的基准。该数据集涵盖了来自印度83个地区的132位说话者,包括非母语说话者,他们的母语涵盖了印度宪法承认的19种语言。这一多样性使得LAHAJA成为研究多口音印地语ASR系统性能的理想平台。研究结果表明,现有的开源和商业模型在处理多口音印地语时表现不佳。然而,通过在多语言数据集上训练模型,研究人员发现可以显著提高模型的性能。这种方法的成功表明,通过增加说话者多样性和接触更多语言背景的数据,可以改善模型的泛化能力。此外,研究发现,模型在处理来自东北部和南部印度的说话者,尤其是那些内容丰富的命名实体和特定领域的术语时表现较差。这些发现突出了在开发能够准确识别多口音印地语的ASR系统时需要解决的挑战,并为未来的研究指明了方向。
相关研究论文
  • 1
    LAHAJA: A Robust Multi-accent Benchmark for Evaluating Hindi ASR Systems印度理工学院马德拉斯分校 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作