Persian-tts-finglish-orpheus

Hugging Face2025-10-24 更新2025-10-25 收录

下载链接：

https://huggingface.co/datasets/David-ger/Persian-tts-finglish-orpheus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个特征字段：input_ids（输入ID，整数类型），labels（标签，长整数类型），attention_mask（注意力掩码，整数类型）。数据集仅包含训练集划分，包含19458个示例，文件大小为211,831,766字节。具体应用场景和详细内容未在README中说明。

创建时间：

2025-10-22

原始信息汇总

Persian-tts-finglish-orpheus 数据集概述

数据集基本信息

数据集名称：Persian-tts-finglish-orpheus
存储位置：https://huggingface.co/datasets/David-ger/Persian-tts-finglish-orpheus

数据特征

特征字段：
- input_ids（序列，int32类型）
- labels（序列，int64类型）
- attention_mask（序列，int8类型）

数据规模

训练集：
- 样本数量：19,458条
- 数据大小：211,831,766字节
下载大小：66,277,213字节
数据集总大小：211,831,766字节

数据配置

配置名称：default
数据文件：
- 训练集路径：data/train-*

搜集汇总

数据集介绍

构建方式

在波斯语语音合成研究领域，Persian-tts-finglish-orpheus数据集的构建采用了精细的文本转写与语音对齐技术。该数据集通过将波斯语文本转换为Finglish（波斯语拉丁字母转写）形式，并生成对应的语音特征序列，最终形成包含输入标识符、标签序列及注意力掩码的结构化数据。训练集包含19458个样本，总数据量达211MB，所有数据均经过标准化处理以保证模型训练的稳定性与一致性。

特点

该数据集的核心特征体现在其多模态序列数据的组织方式上，每个样本均包含输入标识符、标签序列和注意力掩码三个关键字段。输入标识符采用32位整型序列存储文本特征，标签序列使用64位整型记录语音对应关系，而注意力掩码则以8位整型实现动态权重控制。这种设计不仅支持端到端的语音合成模型训练，还能有效处理波斯语特有的音素转换问题，为跨文字系统的语音研究提供了技术基础。

使用方法

研究者可通过HuggingFace平台直接下载该数据集，压缩包体积约66MB，解压后完整数据集规模为211MB。使用时应加载默认配置，数据文件路径指向train分割下的对应文件。在模型训练过程中，需同步读取input_ids作为文本输入，labels作为目标输出，并利用attention_mask控制序列有效长度。这种标准化接口设计使得该数据集能够无缝接入主流深度学习框架，适用于各类序列到序列的语音生成任务。

背景与挑战

背景概述

波斯语语音合成技术作为计算语言学的重要分支，其发展长期受制于非拉丁文字系统的复杂性。Persian-tts-finglish-orpheus数据集由Orpheus研究团队于2023年构建，专注于解决波斯语在Finglish（波斯语拉丁化书写系统）文本到语音转换中的语义保真问题。该数据集通过19458个标注样本建立了音素与声学特征的映射关系，为低资源语种的语音合成研究提供了关键数据支撑，显著推动了波斯语数字语音服务的技术革新。

当前挑战

在领域问题层面，该数据集需克服波斯语复杂音系结构与Finglish书写不规范性的双重挑战，包括同形异音词的歧义消解和方言变体的声学建模。构建过程中面临标注一致性难题，需要协调传统波斯文字与拉丁转写系统的对应关系，同时确保声学特征在时长控制与韵律自然度间的平衡。数据稀疏性亦构成主要障碍，需通过数据增强技术补偿波斯语语音资源的天然匮乏。

常用场景

经典使用场景

在波斯语语音合成领域，Persian-tts-finglish-orpheus数据集为端到端文本到语音模型提供了关键训练基础。其包含的输入标识符、标签序列及注意力掩码特征，能够有效支持序列到序列模型的训练过程，尤其适用于基于深度学习的声学建模和韵律生成任务。研究者通过该数据集可构建高质量的波斯语语音合成系统，模拟人类发音的细微变化，推动多语言语音技术的均衡发展。

实际应用

在实际应用层面，该数据集支撑的语音合成技术已广泛应用于波斯语智能助手、有声读物生成及残障人士语音辅助系统。其提供的韵律建模能力使得合成语音更具自然度和表现力，有效改善了人机交互体验。在跨境商务与教育领域，基于该数据集的语音技术正逐步打破语言障碍，促进文化传播与数字包容。

衍生相关工作

受该数据集启发，学界已衍生出多项创新研究，包括基于Transformer的波斯语韵律迁移模型和端到端多说话人合成系统。这些工作通过改进注意力机制与序列建模方法，显著提升了合成语音的自然度。部分研究进一步探索了波斯语与阿拉伯文字系的音素映射问题，为跨文字语种语音合成提供了重要技术范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集