Hinglish Audio dataset

github2024-08-09 更新2024-08-10 收录

下载链接：

https://github.com/sanket-poojary-03/Fine-tuning-Whisper

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含音频文件及其对应的文本转录，用于训练和优化语音转文本模型。

This dataset contains audio files and their corresponding text transcriptions, which are used for training and optimizing speech-to-text models.

创建时间：

2024-07-30

原始信息汇总

数据集概述

数据集用途

该数据集用于DARPG Hackathon的问题陈述3，旨在评估和优化一个开源的语音转文本模型，以准确地将关于公民投诉的反馈电话转录为英文文本。

数据集结构

数据集的结构如下：

audio_dataset/ ├── metadata.csv └── data/

其中，metadata.csv文件包含音频文件的路径audio_path及其对应的文本转录transcription。

数据集准备

为了准备数据集，需要将音频文件夹按上述格式组织。

搜集汇总

数据集介绍

构建方式

在DARPG Hackathon的背景下，为解决第三项问题陈述，即优化开源语音转文本模型以准确转录与公民投诉相关的反馈电话，构建了Hinglish Audio数据集。该数据集通过使用Whisper LLM对音频数据进行文本生成，并将生成的文本存储于`metadata.csv`文件中。经过预处理后，这些数据被用于微调Whisper small LLM模型。

特点

Hinglish Audio数据集的显著特点在于其专注于混合语言环境下的语音转文本任务，特别是针对印度英语（Hinglish）的转录需求。数据集结构清晰，包含音频文件路径及其对应的转录文本，便于后续模型训练和评估。此外，数据集的构建过程确保了文本生成的准确性和一致性，为模型微调提供了高质量的训练数据。

使用方法

使用Hinglish Audio数据集时，首先需按照指定格式准备音频文件夹，其中包含`metadata.csv`文件和音频数据。随后，运行`run_model.py`脚本，该脚本提供了一个Gradio界面，便于用户与微调后的Whisper模型进行交互。通过这种方式，用户可以轻松地将音频数据转换为文本，并进一步应用于相关任务中。

背景与挑战

背景概述

Hinglish Audio数据集是为DARPG Hackathon中的问题陈述3而创建的，旨在评估和优化开源语音转文本模型，以准确地将涉及公民投诉的反馈电话转录为英文文本。该数据集的核心研究问题是如何在多语言环境中提高语音识别的准确性，特别是在印地语和英语混合的场景中。主要研究人员或机构通过使用Whisper LLM生成文本数据，并将其存储在metadata.csv文件中，随后用于微调Whisper small LLM。这一研究对语音识别技术在多语言环境中的应用具有重要影响，特别是在处理非标准英语口音和混合语言的场景中。

当前挑战

Hinglish Audio数据集在构建过程中面临的主要挑战包括：1) 如何处理和识别印地语和英语混合的语音数据，这是语音识别领域中的一个复杂问题；2) 在缺乏原始文本数据的情况下，如何有效地生成和验证转录文本的准确性。此外，数据集的预处理和模型微调过程中也存在技术挑战，如确保生成的文本数据与音频内容的高度一致性，以及在微调过程中保持模型的泛化能力。

常用场景

经典使用场景

Hinglish Audio数据集在语音转文本领域中，被广泛用于微调开源的Whisper模型，以实现对涉及公民投诉的反馈电话进行准确的英语文本转录。通过该数据集，研究人员能够优化模型的性能，使其在处理混合语言（如印地语和英语）的语音数据时表现更为出色。

衍生相关工作

基于Hinglish Audio数据集，研究人员开发了多个相关的语音识别模型，如在Hugging Face上发布的`sanket003/whisper-darpg`模型。这些模型不仅在学术研究中得到了广泛应用，还被集成到各种实际应用中，如智能客服系统和多语言语音助手，进一步推动了语音识别技术的发展。

数据集最近研究