jaya-hindi-text-dataset

Hugging Face2026-02-12 更新2026-02-13 收录

下载链接：

https://huggingface.co/datasets/vysakh25/jaya-hindi-text-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Jaya Hindi文本数据集是一个专为女性语音文本到语音（TTS）训练设计的印地语数据集，包含情感标签和性别适应文本。该数据集源自Rasa印地语数据集（男性说话者“Jitin”），并进行了以下转换：所有文本均调整为女性性别形式（स्त्रीलिंग），包括动词和形容词的阴性形式。数据集包含22,198条条目，其中原始条目17,472条，情感扩展条目4,726条。情感标签包括happy、sad、angry和neutral，其中neutral占比最高（70.6%）。每条条目包含唯一标识符、原始文本、性别适应文本、情感列表、主要情感等字段。数据集适用于TTS训练，特别支持对比训练的情感扩展条目。数据集为文本形式，音频生成和SNAC编码将单独进行。

创建时间：

2026-02-11

原始信息汇总

Jaya Hindi Text Dataset 数据集概述

数据集基本信息

数据集名称：Jaya Hindi Text Dataset (Female Voice, Emotion-Tagged)
语言：印地语 (hi)
许可协议：cc-by-4.0
主要任务类别：文本到语音 (text-to-speech)
标签：hindi, tts, emotion, female-voice, jaya, orpheus
数据规模：10K<n<100K

数据集描述

这是一个为名为“Jaya”的女性语音进行文本到语音训练准备的印地语文本数据集。数据集源自Rasa印地语数据集（男性说话者“Jitin”），并进行了转换。

数据特征

字段	描述
`id`	唯一标识符
`text_original`	原始文本（阳性形式，来自Rasa/Jitin数据集）
`text_jaya`	性别适应文本（阴性形式，स्त्रीलिंग），适用于女性说话者
`emotions`	该句子可能的情感列表
`primary_emotion`	该句子最自然的情感
`is_augmented`	是否为专有名词增强变体
`is_expanded`	是否为情感扩展变体
`source_id`	原始条目ID（用于增强/扩展的条目）
`proper_nouns_injected`	扩展过程中注入的专有名词

情感标签

配置的情感：happy, sad, angry, neutral

数据统计

总条目数：22,198
原始条目数：17,472
增强条目数（名词替换）：0
扩展条目数（情感）：4,726
具有2种以上情感的条目数：8,912 (40.1%)

情感分布

情感	数量	百分比
neutral	15,665	70.6%
happy	4,668	21.0%
sad	3,397	15.3%
angry	2,327	10.5%
surprise	7	0.0%

使用说明

这是一个纯文本数据集。音频生成（通过ElevenLabs）和SNAC编码将单独进行，以创建用于TTS训练的最终vysakh25/jaya-orpheus-24khz数据集。

用于TTS训练

训练提示格式为：

<custom_token_1>jaya [{emotion}]: {text_jaya}<|eot_id|>{audio_tokens}<custom_token_2>

性别适应

印地语是一种有性别的语言。所有文本均已适应为阴性（स्त्रीलिंग）：

阳性动词形式 → 阴性：गया→गई, बोला→बोली, 等。
阳性形容词 → 阴性：अच्छा→अच्छी, बड़ा→बड़ी, 等。

情感扩展

仅包含中性情感的条目被修改为支持多种情感，以进行对比训练。每个扩展条目都基于原始文本并注入了专有名词。

数据来源

源自vysakh25/rasa-orpheus-24khz（Jitin/男性语音数据集）。属于印地语Orpheus TTS项目的一部分。

搜集汇总

数据集介绍

构建方式

在印地语文本转语音研究领域，Jaya印地语文本数据集通过系统性的数据转换流程构建而成。该数据集源自Rasa印地语数据集中的男性说话者“Jitin”的原始文本，核心步骤包括性别适应与情感扩展。所有文本均经过语言学处理，将阳性词形转换为阴性词形，如动词和形容词的性数变化，以适应女性说话者“Jaya”的语音合成需求。同时，原始中性情感条目通过注入专有名词和情感标注，扩展为支持多种情感表达的变体，从而增强了数据的多样性和对比学习潜力。

特点

该数据集专为女性语音合成设计，其显著特点体现在多维度标注与结构化组织。数据集包含22,198条文本条目，每条均提供原始阳性文本、适应后的阴性文本以及情感标签，其中情感涵盖中性、快乐、悲伤和愤怒四类，并标注主要情感及多情感分布。数据集中约40.1%的条目支持两种及以上情感，为对比学习提供了丰富素材。此外，通过专有名词注入和情感扩展机制，数据集在保持语言自然性的同时，增强了语义多样性与情感表达的层次性。

使用方法

作为纯文本数据集，其主要应用于印地语文本转语音模型的训练与评估。在使用时，需将文本与外部生成的音频数据结合，遵循特定提示格式：以自定义令牌封装说话者名称、情感标签及适应后的阴性文本，并与音频令牌序列对齐。研究人员可利用该数据集训练支持多情感输出的语音合成系统，尤其适用于女性语音生成任务。数据集的性别适应文本可直接用于模型输入，而情感标签则指导模型学习不同情感状态下的语音韵律变化，推动个性化与情感化语音合成技术的发展。

背景与挑战

背景概述

随着语音合成技术的不断发展，多语言与情感化语音生成成为研究热点。Jaya Hindi Text Dataset由研究者vysakh25于近期构建，隶属于Hindi Orpheus文本转语音项目。该数据集专注于印地语女性语音合成，通过性别适配与情感标注，旨在解决印地语这一高度性别化语言在语音合成中面临的性别一致性问题。其核心研究在于为女性语音模型提供高质量的文本语料，并引入情感维度以支持更具表现力的语音生成，对推动低资源语言的情感化语音合成研究具有积极意义。

当前挑战

该数据集致力于应对印地语情感化语音合成中的关键挑战：如何在高度屈折变化的印地语中实现准确的性别语法转换，确保文本与女性语音的语法一致性；以及如何构建细粒度的情感标签体系，以支持合成语音的情感多样性与自然度。在构建过程中，挑战主要源于对原始男性语音数据集的适应性改造，包括大规模文本的性别形态转换、情感标注的可靠性与一致性维护，以及在数据扩展中保持语言自然性与语境合理性的平衡。

常用场景

经典使用场景

在印地语文本转语音技术领域，Jaya印地语文本数据集为女性声音的情感化语音合成提供了关键支持。该数据集通过性别适应处理，将原始男性文本转换为适合女性发音的语法形式，并结合情感标签，使得模型能够学习生成带有特定情感色彩的语音。其经典应用场景包括训练端到端的神经TTS模型，特别是针对多情感、高自然度的女性语音合成任务，为构建个性化、富有表现力的语音助手奠定了基础。

衍生相关工作

围绕Jaya数据集，已衍生出多项经典研究工作。其作为Hindi Orpheus TTS项目的重要组成部分，推动了后续音频数据集vysakh25/jaya-orpheus-24khz的创建。相关研究聚焦于情感感知的语音合成、跨性别语音转换以及低资源语言TTS模型的优化。这些工作不仅扩展了印地语语音合成的技术边界，也为其他性别敏感语言提供了可借鉴的数据处理范式与模型架构，促进了多语言、多模态人工智能系统的发展。

数据集最近研究