Indian Language Text & Voice Dataset

github2025-09-12 更新2025-09-13 收录

下载链接：

https://github.com/nag2mani/indianlangdataset

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库提供了一个简单的流水线，用于生成10种印度语言的并行文本和语音数据集，用于测试机器学习模型、语音合成和翻译系统。支持的语言包括孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、泰卢固语和乌尔都语。数据集包含文本数据和对应的语音MP3文件，主要用于银行和贷款相关领域的研究和测试。

This repository provides a streamlined pipeline for generating parallel text and speech datasets across 10 Indian languages, intended for testing machine learning models, speech synthesis systems and machine translation systems. The supported languages are Bengali, English, Gujarati, Hindi, Kannada, Malayalam, Marathi, Tamil, Telugu, and Urdu. The datasets include text data and their corresponding MP3 audio files, which are mainly used for research and testing in the banking and loan field.

创建时间：

2025-09-12

原始信息汇总

数据集概述

基本信息

数据集名称: Indian Language Text & Voice Dataset Generator
支持语言: 10种印度语言，包括孟加拉语（bn）、英语（en）、古吉拉特语（gu）、印地语（hi）、卡纳达语（kn）、马拉雅拉姆语（ml）、马拉地语（mr）、泰米尔语（ta）、泰卢固语（te）、乌尔都语（ur）
用途: 用于测试机器学习模型、语音合成和翻译系统

数据内容

文本数据: 每种语言对应的<lang>_textdata.csv文件，包含翻译后的句子
语音数据: 每种语言对应的MP3文件，存储在<lang>_voicedata/目录中
主表文件: mastersheet.csv，包含所有语言的句子及其对应的语音文件路径

生成流程

准备英语句子: 在eng_textdata.csv中添加英语句子，每行一个句子
安装依赖: 使用pip install -r requirements.txt安装所需库
生成文本数据: 运行textdata_generator.py脚本，从英语句子生成所有支持语言的文本数据
生成语音数据: 运行voicedata_generator.py脚本，从文本数据生成对应的MP3文件
生成主表: 运行mastersheet_generator.py脚本，创建包含所有句子和语音文件路径的主表

语音生成技术

主要技术: 使用Google Text-to-Speech (gTTS)生成大多数支持语言的语音数据
补充技术: 对于gTTS不支持的语言（如阿萨姆语和阿迪亚语），使用AI4Bharat Indic Parler TTS模型

自定义选项

添加语言: 更新脚本中的语言列表，并确保翻译/语音API支持这些语言
自定义句子: 通过编辑eng_textdata.csv文件使用自己的英语句子

作者信息

创建者: Nagmani
用途: 主要用于银行和贷款相关的研究和测试，但可适应其他领域

搜集汇总

数据集介绍

构建方式

在多语言语音处理研究领域，构建平行语料库是推动模型跨语言泛化能力的关键。本数据集通过系统化流程生成十种印度语言的文本与语音平行数据：首先从英语源句库出发，借助机器翻译技术生成各语言文本；随后采用Google Text-to-Speech引擎合成主流印度语言语音，对于阿萨姆语等特殊语种则调用AI4Bharat Indic Parler TTS模型补充生成，最终形成结构化存储的文本-语音映射体系。

特点

该数据集显著特点体现在其多模态对齐架构与语言多样性覆盖。文本数据以CSV格式存储翻译结果，语音数据则采用MP3格式保存，每个句子均具备跨语言的平行对照特性。涵盖从孟加拉语到乌尔都语等十大印度官方语言，特别针对资源稀缺语种如奥里亚语采用专项合成方案，且所有数据均通过统一的主表文件实现全局索引，为跨语言对比研究提供完整支撑。

使用方法

研究者可通过编辑根目录下的英语句库文件启动数据生成流程，依次运行文本翻译、语音合成与主表生成脚本即可自动构建完整数据集。生成的主表文件集成了所有语言的文本路径与对应语音文件映射关系，可直接用于训练多语言语音合成模型、机器翻译系统或跨模态检索任务，同时支持通过修改语言列表和源句库实现领域自适应扩展。

背景与挑战

背景概述

印度语言文本与语音数据集由Nagmani于近年开发，旨在构建多模态机器学习资源，支持印度主要语言的语音合成与机器翻译研究。该数据集涵盖孟加拉语、印地语、泰米尔语等十种印度本土语言，通过并行文本与语音数据生成管道，为自然语言处理领域提供了重要的跨语言基准测试平台。其设计聚焦于金融领域文本特征，同时具备向其他领域扩展的适应性，对推动印度多语言技术生态发展具有显著意义。

当前挑战

该数据集核心挑战在于解决印度多语言环境下语音合成与翻译系统的数据稀缺问题，需克服语言形态多样性导致的音素对齐和语义一致性难题。构建过程中面临技术整合复杂性，包括协调Google TTS与AI4Bharat两种语音引擎以覆盖全部语种，确保不同语言间音频质量与文本转录的标准化。此外，方言变体处理和语音-文本时序对齐亦是关键难点，需通过精细化管道设计保障多模态数据的一致性。

常用场景

经典使用场景

在多语言语音技术研究中，该数据集为印度语言语音合成系统提供了标准化的训练与测试基准。研究者通过其平行文本与语音对应关系，能够有效评估TTS模型在孟加拉语、泰米尔语等十种语言中的韵律准确性和发音自然度，特别是在跨语言语音转换任务中展现出色适配性。

衍生相关工作

基于该数据集衍生的经典工作包括跨语言语音克隆系统IndicVoiceClone，以及结合AI4Bharat模型的端到端多语言TTS框架。这些成果显著提升了印度语言语音合成的自然度，并催生了多项基于注意力机制的跨语言声码器研究。

数据集最近研究