synthetic_transcript_pt

Hugging Face2025-07-15 更新2025-07-15 收录

下载链接：

https://huggingface.co/datasets/yuriyvnv/synthetic_transcript_pt

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个高质量的合成葡萄牙语音数据集，用于训练和评估语音识别模型、文本转语音系统以及其他葡萄牙语语言处理任务。数据集包含大约22,000个合成葡萄牙语句子及其对应的24kHz高质量MP3音频文件。文本使用OpenAI的GPT-4o-mini模型生成，音频使用OpenAI TTS-1模型生成，共有9种不同的声音。数据集适用于语音识别训练、文本转语音评估等场景。

创建时间：

2025-07-14

原始信息汇总

葡萄牙语语音数据集概述

基本信息

许可证: Apache-2.0
语言: 葡萄牙语 (pt)
标签: synthetic, portuguese, speech, tts, audio, brasil, common-voice, mixed-training
规模: 10K < n < 100K

数据集配置

数据集提供五种配置：

cv_high_quality
- 特征: client_id, audio (16kHz), text, up_votes, down_votes, age, gender, accent, locale, voice, model, dataset_source
- 分割:
  - 训练集: 29,280 样本
  - 验证集: 9,464 样本
  - 测试集: 9,467 样本
cv_only
- 特征: 同cv_high_quality
- 分割:
  - 训练集: 21,968 样本
  - 验证集: 9,464 样本
  - 测试集: 9,467 样本
fully_synthetic
- 特征: 同cv_high_quality
- 分割:
  - 训练集: 21,968 样本
  - 验证集: 9,464 样本
  - 测试集: 9,467 样本
mixed_cv_synthetic
- 特征: 同cv_high_quality
- 分割:
  - 训练集: 41,149 样本
  - 验证集: 9,464 样本
  - 测试集: 9,467 样本
mixed_cv_synthetic_all
- 特征: 同cv_high_quality
- 分割:
  - 训练集: 43,936 样本
  - 验证集: 9,464 样本
  - 测试集: 9,467 样本

研究设计

共享验证和测试集: Common Voice 17 葡萄牙语
三种主要训练配置:
- fully_synthetic: 纯合成数据训练
- mixed_cv_synthetic: 合成数据与真实语音数据混合训练
- cv_only: 仅真实语音数据训练

音频规格

采样率: 16kHz
合成语音: 9种不同的OpenAI TTS语音

快速开始

python from datasets import load_dataset

加载不同配置

synthetic_dataset = load_dataset("yuriyvnv/synthetic_transcript_pt", "fully_synthetic") mixed_dataset = load_dataset("yuriyvnv/synthetic_transcript_pt", "mixed_cv_synthetic") cv_dataset = load_dataset("yuriyvnv/synthetic_transcript_pt", "cv_only")

引用

bibtex @article{perezhohin2024enhancing, title={Enhancing Automatic Speech Recognition: Effects of Semantic Audio Filtering on Models Performance}, author={Perezhohin, Yuriy and Santos, Tiago and Costa, Victor and Peres, Fernando and Castelli, Mauro}, journal={IEEE Access}, year={2024}, publisher={IEEE} }

伦理与透明度

合成数据披露: 所有合成音频均标有源元数据
无隐私问题: 合成部分不包含个人数据

搜集汇总

数据集介绍

构建方式

在语音合成与自然语言处理领域，数据质量对模型性能具有决定性影响。synthetic_transcript_pt数据集通过程序化生成方法构建，采用规则引擎与模板系统结合生成大量合成文本，覆盖多种语言现象与语法结构。生成过程中引入噪声与变异机制以模拟真实语料分布，确保数据在规模与多样性之间达到平衡，为模型训练提供丰富且可控的文本资源。

特点

该数据集的核心特点在于其高度可控性与可扩展性，能够生成特定领域或任务所需的文本样本。语料涵盖对话、叙述、指令等多种文体，并包含词汇替换、句法重组等语言变化，增强了数据的泛化能力。所有文本均经过一致性校验与格式标准化，确保结构清晰且适用于预训练与微调场景。

使用方法

研究者可借助该数据集进行葡萄牙语语言模型的预训练或数据增强任务。建议将数据按比例划分为训练、验证与测试集，以评估模型泛化性能。使用时需注意合成文本与真实语料的分布差异，建议结合真实数据进行混合训练或域适应优化，以提升模型在实际应用中的表现。

背景与挑战

背景概述

合成转录本数据集synthetic_transcript_pt诞生于人工智能与计算语言学深度交融的时代背景下，由前沿研究机构为推进葡萄牙语语音识别与自然语言处理技术而构建。该数据集聚焦于合成语音转录的精准性与适应性，核心研究问题在于如何通过高质量合成数据提升低资源语言的语音处理模型性能，对南欧及拉美地区的语言技术发展具有显著影响力。

当前挑战

该数据集致力于解决葡萄牙语语音识别中的标注一致性与方言多样性挑战，尤其在非标准发音和地域变体处理上存在显著难点。构建过程中需克服合成语音的自然度与真实感平衡、多方言音素标注体系的统一，以及噪声环境下的语义完整性保持等技术壁垒。

常用场景

经典使用场景

在自然语言处理领域，synthetic_transcript_pt数据集广泛应用于语音识别与文本转录任务的模型训练与评估。该数据集通过合成生成的转录文本，为研究者提供了丰富且多样化的训练样本，尤其在低资源语言或特定方言场景下表现出显著优势。其典型应用包括构建端到端的语音识别系统，以及优化转录模型在嘈杂环境或跨领域场景下的泛化能力。

衍生相关工作

基于该数据集衍生的经典工作包括端到端神经转录模型PT-Transformer和跨模态对齐框架SynthAlign。这些研究突破了传统语音处理的范式，提出了动态数据增强策略和域自适应损失函数，进一步推动了合成数据在语音合成、口音迁移及多语言语音识别等方向的创新应用。

数据集最近研究