five

hinglish

收藏
Hugging Face2026-04-24 更新2026-04-25 收录
下载链接:
https://huggingface.co/datasets/agarwalayushi/hinglish
下载链接
链接失效反馈
官方服务:
资源简介:
Hinglish Concatenated Audio Dataset 是一个大规模、经过清理和标注的语音数据集,涵盖印地语、Hinglish(印地语-英语代码切换)和印度英语。该数据集由14个公开语料库和原始自定义录音编译而成,统一为具有一致模式的单个Parquet数据集。数据集包含815,171个音频片段,总时长超过2,264小时,涉及6,304个独特说话者。音频数据以WAV格式嵌入Parquet中,保留了原始采样率。数据集适用于自动语音识别(ASR)、文本到语音(TTS)微调、语音克隆和语音研究等任务。数据集采用CC BY 4.0许可发布,但部分组件可能有不同的许可要求。

The Hinglish Concatenated Audio Dataset is a large-scale, cleaned, and annotated speech dataset covering Hindi, Hinglish (Hindi-English code-switching), and Indian English. It is compiled from 14 public corpora and original custom recordings, unified into a single Parquet dataset with a consistent schema. The dataset contains 815,171 audio clips totaling over 2,264 hours of audio from 6,304 unique speakers. Audio data is embedded in Parquet in WAV format, preserving the original sample rates. The dataset is suitable for tasks such as automatic speech recognition (ASR), text-to-speech (TTS) fine-tuning, voice cloning, and speech research. It is released under the CC BY 4.0 license, though some components may have different licensing requirements.
创建时间:
2026-04-23
原始信息汇总

Hinglish 拼接音频数据集

数据集概述

该数据集是一个大规模、经过清洗和标注的语音数据集,涵盖 印地语(Hindi)印英混合语(Hinglish)印度英语(Indian English)。数据集由来自 14 个公共语料库和原创定制录音整合而成,统一为 Parquet 格式,并采用一致的 schema。

关键统计信息

统计项 数值
总音频片段数 815,171
总预计时长 超过 2,264 小时
独立说话人数 6,304
原始音频大小 约 237 GB
语言 印地语 (hi)、印英混合语 (hi-en)、印度英语 (en-IN)
格式 Parquet(嵌入音频,兼容 Hugging Face 数据集查看器)
适用任务 自动语音识别(ASR)、文本转语音(TTS)微调、语音克隆、语音研究

数据集 Schema

字段名 类型 描述
source string 说话人或来源标识符
text string 清洗后的转录文本(可能包含 <hi-en> 语言标签)
audio Audio 嵌入 Parquet 的 WAV 音频,保留原始采样率
quality string 采样率(Hz)或 MOS 质量评分(如可用)
duration string 音频片段时长(秒)

数据来源构成

来源数据集 音频片段数 描述 许可证
NPTEL Hindi Spoken Tutorial 521,028 印地语教育讲座 CC BY 4.0
AI4Bharat Kathbath 94,903 多说话人印地语语音基准 CC BY 4.0
AI4Bharat IndicTTS 36,613 录音室品质印地语 TTS 语料库 CC BY 4.0
Hinglish — ujs 25,378 印英混合语语音 见原来源
Mozilla Common Voice 17 (Hindi) 24,643 社区贡献的印地语语音 CC0 1.0
AI4Bharat Mann Ki Baat 22,483 印地语广播语音(英-印对齐) CC BY 4.0
Mann Ki Baat (English) 22,477 Mann Ki Baat 平行语料库的英语部分 CC BY 4.0
Hindi Female Single Speaker HQ — Shekharmeena 22,058 高质量单说话人印地语女声 见原来源
Orpheus TTS Indian English 18,238 多说话人印度英语 TTS 见原来源
Indic TTS Hindi — SPRINGLab 11,825 多说话人印地语 TTS CC BY 4.0
Indian English — krishan23 6,765 印度口音英语语音 见原来源
Hinglish Test TTS — Shekharmeena 3,136 定制印英混合语 TTS 录音 见原来源
Custom female TTS recordings 2,843 原创录音室录音 CC BY 4.0
Orpheus TTS Shaurya — prashantarya 1,419 男性印地语/英语 TTS 语音 见原来源
Anika Voice — Shekharmeena ~5 定制女声印地语/印英混合语语音 见原来源

数据处理与清洗

  • 所有音频片段重新切分,去除静音和串扰
  • 转录文本统一为 Unicode NFC 标准化,为代码切换话语添加 <hi-en> 语言标签
  • 去除重复和近似重复的音频片段
  • 所有来源在拼接前统一为一致的 CSV schema
  • 音频存储为 WAV 格式,保留原始采样率

许可证

本数据集采用 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证。

允许:

  • 用于研究、商业或个人项目
  • 以任何媒介共享和重新分发
  • 基于数据进行修改和改编

需遵守:

  • 署名 — 注明本数据集及上方列出的原始来源数据集链接
  • 禁止不当使用 — 不得用于生成未经同意的真实个人合成语音,或用于欺诈、骚扰、虚假信息

⚠️ 上游许可证: 每个组成数据集保留其原始许可证。用户有责任遵守其所使用来源的条款。Mozilla Common Voice 为 CC0 许可证;所有 AI4Bharat 和 SPRINGLab 来源为 CC BY 4.0 许可证。标记为“见原来源”的数据集需单独核查。

引用

如需引用本数据集,请使用以下 BibTeX 格式:

bibtex @dataset{agarwal2026hinglish, author = {Agarwal, Ayushi}, title = {Hinglish Concatenated Audio Dataset}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/agarwalayushi/hinglish}, note = {Aggregated from Mozilla Common Voice, AI4Bharat (Kathbath, Mann Ki Baat, Spoken Tutorial, IndicTTS), SPRINGLab IndicTTS, and custom recordings} }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集以印度次大陆独特的语言混合现象为背景,聚焦于印地语、印英混合语及印度英语三种语言形态。构建过程中,研究团队从14个公开语料库与自采录音中遴选出815,171条语音片段,涵盖教育讲座、广播节目、社区贡献及专业录音室素材等多种来源。所有音频经过统一的静音切除、重复剔除与文本标准化处理,并以Parquet格式封装为包含内嵌WAV音频的一致性架构,最终形成总时长超过2264小时、涵盖6304位独立说话人的大规模高质量语音资源。
特点
该数据集的核心特色在于其多维度质量保障与语言标注体系。一方面,所有音频均保留了原始采样率并消除静音与交叉干扰,转录文本经Unicode NFC规范化后,以<hi-en>标签显式标记出混合语语句,为代码转换语音研究提供了精准标记。另一方面,数据集兼容了自动语音识别与文本转语音双重任务,同时支持语音克隆与泛化声学研究,其丰富的说话人多样性、平衡的语种分布与超高清的音频质量,使之成为南亚多语言语音系统的基准性资源。
使用方法
使用者可直接通过Hugging Face数据集加载接口调用该资源,其Parquet格式内置了音频数据与元数据,兼容主流深度学习框架的DataLoader。对于语音识别任务,可依据text字段的转录内容与语言标签直接训练端到端模型;对于语音合成任务,则可通过source字段筛选特定说话人风格,利用audio列嵌入的44.1kHz原生采样音频进行声学建模。此外,研究者还可按quality、duration等辅助列进行子集切片,以适配不同计算场景下的微调需求,所有数据均以CC BY 4.0协议开源发布。
背景与挑战
背景概述
在多语种与代码混合语音处理领域,印地语-英语混合语(Hinglish)作为一种广泛使用的语言变体,长期以来缺乏大规模、高质量且经过统一标注的语音数据集,制约了自动语音识别(ASR)与文本转语音(TTS)系统在这一方向上的研究进展。为填补这一空白,由研究人员Ayushi Agarwal于2026年构建的Hinglish Concatenated Audio Dataset应运而生。该数据集汇集了来自AI4Bharat、Mozilla Common Voice、SPRINGLab等14个公开语料库及原创录制数据,包含超过81.5万条语音片段、总计逾2264小时,涵盖纯印地语、印地语-英语代码混合语及印度英语,并统一为Parquet格式存储。通过系统性地清洗、去重、标注与归一化处理,该数据集为多语种与代码混合语音研究提供了一站式标准化资源,显著提升了相关模型在印度次大陆语言环境下的适应性与表现。
当前挑战
该数据集主要应对两大挑战。其一,领域问题层面,Hinglish语音数据长期呈现碎片化与异质性特征,各语料库在采样率、标注规范、音频质量上参差不齐,且代码混合现象的边界模糊、转录标准化难度高,导致通用ASR与TTS模型在Hinglish场景下性能显著下降。其二,构建过程层面,如何将来源迥异的14个语料库(涵盖教育讲座、广播、社区录音、专业TTS素材等)整合为统一Schema是核心难点,需解决格式转换中音频对齐精度丢失、转录文本中的拼写与字符编码不一致(如Unicode NFC归一化)问题,同时进行跨语料库的重复检测与去重,并确保对代码混合片段添加精确的语言标签(如<hi-en>),最终在保留原始采样率的前提下将音频嵌入Parquet文件以兼顾可访问性与压缩效率。
常用场景
经典使用场景
在语音与语言处理研究领域,Hinglish数据集因其规模宏大、标注精细且涵盖语码混合特性,成为自动语音识别(ASR)与文本转语音(TTS)模型训练与评测的经典基准资源。研究者常利用该数据集中的81万余条语音片段,覆盖印地语、印度英语及印英混合语码(Hinglish),构建高泛化能力的多语言语音系统。其统一架构与嵌入的音频Parquet格式极大简化了数据加载流程,尤其适合开展语音克隆、说话人识别以及跨语言语码转换建模等前沿课题。该数据集的经典使用场景聚焦于低资源语言语音系统的鲁棒性提升,以及语码混合环境下端到端语音处理流水线的效果验证。
实际应用
在实际应用层面,Hinglish数据集为印度次大陆的语音技术落地提供了直接支撑,助力开发面向数亿用户的智能语音助手、无障碍通讯工具及教育平台。基于该数据集训练的ASR系统能够精准识别Hinglish混合语码,广泛应用于客户服务中的自动语音应答、车载语音导航以及多语种内容转录。TTS模型则可用于生成自然流畅的多语种语音,服务于有声读物制作、视障人士的语音播报以及语言学习辅助工具。此外,该数据集还被用于提升印度英语口音识别系统的鲁棒性,在跨国会议实时翻译、本地化智能家居控制及医疗语音录入等场景中展现显著应用价值。
衍生相关工作
Hinglish数据集的发布催生了一系列富有启发性的衍生工作,深化了语码混合语音研究的理论框架与方法体系。围绕该数据集,学界涌现了针对Hinglish语码混合现象的端到端语音识别模型优化研究,如引入语言身份嵌入的混合注意力架构。在文本转语音领域,衍生工作聚焦于语码混合条件下的韵律建模与多说话人音色迁移。同时,基于该数据集的质量评估研究推动了语音合成自然度与可懂度的客观评价指标革新。此外,数据集的开放属性激励了跨语种数据增强策略的探索,以及面向低资源语言的预训练模型迁移学习范式研究,为南亚乃至全球多语种语音社区贡献了重要的方法学参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作