Hinglish Audio Dataset
收藏github2026-04-24 更新2026-04-26 收录
下载链接:
https://github.com/ayushi-agarwall/hinglish-audio-dataset
下载链接
链接失效反馈官方服务:
资源简介:
一个大规模、经过清理和注释的语音数据集,涵盖印地语、Hinglish(印地语-英语代码切换)和印度英语,由14个公共语料库和原始自定义录音组成。
A large-scale, cleaned and annotated speech dataset covering Hindi, Hinglish (Hindi-English code-switching) and Indian English, composed of 14 public corpora and original custom audio recordings.
创建时间:
2026-04-23
原始信息汇总
Hinglish Audio Dataset 数据集详情
数据集概览
| 属性 | 值 |
|---|---|
| 总音频片段数 | 815,171 |
| 总时长 | 约2,264小时 |
| 独特说话人数 | 6,304 |
| 原始音频大小 | 约237 GB |
| 语言 | 印地语、印地英语混合语、印度英语 |
| 音频格式 | WAV(保留原始采样率) |
| 数据集格式 | Parquet(嵌入音频,兼容Hugging Face) |
| 主要任务 | 自动语音识别、文本转语音微调、语音克隆 |
数据集模式
| 列名 | 类型 | 描述 |
|---|---|---|
source |
string | 说话人或来源标识符 |
text |
string | 清洗后的文本转录(包含 <hi-en> 标签标识印地英语混合语句) |
audio |
Audio | 音频波形字节 + 采样率,嵌入Parquet |
quality |
string | 采样率(Hz)或可用时的MOS质量评分 |
duration |
string | 音频片段时长(秒) |
来源数据集
该数据集聚合了以下14个公开语料库及原创自定义录音:
| 来源 | 片段数 | 描述 | 许可证 |
|---|---|---|---|
| NPTEL Hindi Spoken Tutorial (AI4Bharat) | 521,028 | 印地语教育讲座 | CC BY 4.0 |
| AI4Bharat Kathbath | 94,903 | 多说话人印地语语音基准 | CC BY 4.0 |
| AI4Bharat IndicTTS | 36,613 | 录音室品质印地语TTS语料库 | CC BY 4.0 |
| Hinglish — ujs | 25,378 | 印地英语混合语音 | 见来源 |
| Mozilla Common Voice 17 (印地语) | 24,643 | 社区贡献的印地语语音 | CC0 1.0 |
| AI4Bharat Mann Ki Baat | 22,483 | 印地语广播语音,印英对齐 | CC BY 4.0 |
| Mann Ki Baat (英语) | 22,477 | Mann Ki Baat平行语料库的英语部分 | CC BY 4.0 |
| Hindi Female Single Speaker HQ — Shekharmeena | 22,058 | 高质量单一女性说话人印地语 | 见来源 |
| Orpheus TTS Indian English — ar17to | 18,238 | 多说话人印度英语TTS | 见来源 |
| Indic TTS Hindi — SPRINGLab | 11,825 | 多说话人印地语TTS | CC BY 4.0 |
| Indian English — krishan23 | 6,765 | 印度口音英语语音 | 见来源 |
| Hinglish Test TTS — Shekharmeena | 3,136 | 自定义印地英语混合TTS录音 | 见来源 |
| 自定义女性TTS录音 | 2,843 | 原始录音室录音 | CC BY 4.0 |
| Orpheus TTS Shaurya — prashantarya | 1,419 | 男性印地语/英语TTS声音 | 见来源 |
| Anika Voice — Shekharmeena | ~5 | 自定义女性印地语/印地英语混合声音 | 见来源 |
数据处理流程
- 所有音频片段重新分割,去除静音和交叉对话
- 文本转录归一化为Unicode NFC格式;为印地英语混合语句添加
<hi-en>语言标签 - 跨来源移除重复和近似重复的片段
- 应用统一的5列模式(
source,text,audio,quality,duration)后拼接 - 音频以WAV格式存储;保留每个说话人/来源的原始采样率
许可证
数据集采用 CC BY 4.0 许可证发布。
- ✅ 可自由用于研究和商业用途
- ✅ 允许重新分发和改编
- 📌 需注明出处——引用本数据集并链接到上游来源
- 🚫 不得用于生成未经同意的真实个人合成声音
各组成数据集保留其原始许可证。用户需自行遵守每个上游来源的条款。
引用
bibtex @dataset{agarwal2026hinglish, author = {Agarwal, Ayushi}, title = {Hinglish Concatenated Audio Dataset}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/agarwalayushi/hinglish}, note = {Aggregated from Mozilla Common Voice, AI4Bharat (Kathbath, Mann Ki Baat, Spoken Tutorial, IndicTTS), SPRINGLab IndicTTS, and custom recordings} }
搜集汇总
数据集介绍

构建方式
在印地语与英语广泛交融的南亚语言生态中,该数据集通过系统整合14个公开语料库并辅以原创录音,构建了一个大规模、清洗标注完备的语音资源库。数据来源涵盖教育讲座、多说话人基准测试、录音棚级TTS语料、社区贡献语音及广播对齐语音等多种类型,所有音频片段均经过静音去除、串扰消除与转录文本归一化处理。对语码混合话语添加了<hi-en>语言标签,并跨来源剔除了重复及近似重复片段,最终统一为包含来源、文本、音频、质量与时长五列的标准模式,形成约2264小时、逾81万条语音片段的数据集。
特点
该数据集最显著的特质在于其涵盖印地语、印地英语码混合语及印度英语的三语架构,能够真实反映南亚地区多语并用的交流现实。数据集包含6304位独特说话者,语音时长总计逼近2500小时,在规模与多样性上尤为突出。音频以WAV格式嵌入Parquet文件,保留了原始采样率以确保语音保真度。数据不仅可用于语音识别与语音合成微调,还能服务于语音克隆任务,且所有片段均基于CC BY 4.0协议发布,有力支持研究与商业应用。
使用方法
研究人员可通过Hugging Face数据集库直接加载该资源,使用`load_dataset`函数指定“agarwalayushi/hinglish”并以流式模式读取,从而高效处理大规模音频数据。加载后,每个样本包含以字典形式存储的音频波形与采样率,以及清洗后的转录文本。如需聚焦语码混合话语,可利用过滤函数筛选文本中以`<hi-en>`开头的数据子集。该数据集已配备统一的Parquet格式与嵌入音频,显著简化了后续分析与模型训练的数据预处理流程。
背景与挑战
背景概述
该数据集由Ayushi Agarwal于2025年创建,整合了14个公开语料库与定制录音,汇聚了超过81.5万条语音片段、约2264小时音频,涵盖印地语、印地英语码混合及印度英语三种语言变体。其核心研究问题在于填补多语言混杂语音资源的空白,为自动语音识别、文本转语音微调及语音克隆等任务提供大规模、清洗后的训练数据。该数据集在推动低资源语言及语码混合场景的语音技术发展方面具有重要影响力。
当前挑战
该数据集主要挑战包括:1)领域问题层面,语码混合语音中语言边界的模糊性导致转录与识别任务异常困难,现有模型常因缺乏此类数据而性能骤降;2)构建过程中,整合来自不同来源的语料面临采样率、噪声水平、标注格式不一致等问题,需通过静音去除、文本归一化及去重等复杂流程确保质量,且公开语料库的许可证异质性增加了合规与归因的难度。
常用场景
经典使用场景
在语音领域,Hinglish Audio Dataset的经典使用场景聚焦于多语言与代码混合语音的自动语音识别(ASR)模型训练。该数据集汇聚了超过81万条、总计约2264小时的印度次大陆原生语音资源,涵盖纯印地语、印地语与英语的代码混合(Hinglish)以及印度英语三种核心语言形态。研究者可基于其统一格式的Parquet数据,直接加载音频与清洗后的文本对,构建端到端的端到端语音识别系统,尤其适用于在资源匮乏的代码混合场景下提升模型的鲁棒性与泛化能力。此外,数据集内嵌的语言标记(如<hi-en>)使得按语言类别筛选样本成为可能,为细粒度语音分析提供了便捷的数据基础。
解决学术问题
该数据集有效回应的学术研究问题集中于多语言语音处理中的数据稀缺性与异构性挑战。在印地语及其与英语的代码混合语音的自动识别任务中,此前公开语料库存在规模小、来源单一、标注不一致等局限,导致模型在真实混用场景下性能显著下降。Hinglish Audio Dataset通过聚合14个公开语料库并添加原创录音,构建了迄今为止最大规模的印度多类型语音基准,使研究者能够系统性地探索跨域数据融合、噪声鲁棒性训练以及低资源语言的迁移学习策略。其统一化的清洗与标注流程也为构建可复现的评估实验提供了标准化参考,推动了南亚语言语音研究的范式进步。
衍生相关工作
该数据集衍生出的相关工作集中在多语言语音识别的联合建模与跨语种迁移学习方向。依托其超过六千位说话人、覆盖教育讲座、广播节目与工作室录音等多源场景的丰富性,研究者已开发出针对代码混合语言的语言身份感知注意力机制与声学模型预训练策略。数据集中清晰的语种标记与音频时长统计也催生了针对非对称语种分布下模型鲁棒性评估的基准方法。此外,该数据集的拼接工艺与清洗流程为其他低资源语言的语音数据整合工程树立了范本,启发了诸如多来源TTS语料协同训练与跨数据集噪声一致性归一化等后续研究,对构建统一化的印度次大陆语音生态系统具有重要的方法论启示。
以上内容由遇见数据集搜集并总结生成



