SPEEED_s3_words_french_0k-100k

Hugging Face2026-02-04 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/AdoCleanCode/SPEEED_s3_words_french_0k-100k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自AAdonis/multilingual_audio_alignments（法语）的经过处理的音频对齐数据。数据集采用混合文本/音素条件，并采用课程学习策略：起始概率（p_start）为0.0，结束概率（p_end）为0.0，课程行数（curriculum_rows）为400000。数据集包含删除训练样本，占比20.0%，删除边距为0.1秒。数据集特征包括序列、完整转录、原始转录、移除的单词、带标记的混合文本/音素、转换类型、编辑类型、音素概率和XCodec2音频令牌。序列格式包含混合左右部分、移除部分和音频生成标记。数据处理语言为法语，索引范围为0至99999，总样本数为301979。

创建时间：

2026-02-04

原始信息汇总

SPEEED_s3_words_french_0k-100k 数据集概述

数据集来源

本数据集是 AAdonis/multilingual_audio_alignments（法语部分）的处理版本，专注于多语言音频对齐。

数据集构成

数据量：包含 301,979 个样本。
数据划分：所有样本均位于 train 分割中。
语言：法语。
索引范围：0 至 99,999。
最终行计数：301,979。

核心特性与用途

课程学习

数据集采用混合文本/音素条件与课程学习策略：

起始概率 (p_start)：0.0（使用音素的起始概率）
结束概率 (p_end)：0.0（使用音素的结束概率）
课程行数 (curriculum_rows)：400,000（概率增加所跨越的行数）在数据集前期，更多单词保留为文本形式；后期，几乎所有单词都转换为音素。

删除训练

删除比例：20.0% 的样本为删除样本。
删除边距：每侧 0.1 秒（总计 0.2 秒的过渡段）。 删除训练流程：

在两个相邻单词之间随机选择一个间隙。
找到该间隙的中点。
在中点两侧各切割 0.1 秒。
目标音频为该 0.2 秒的过渡段。
音素内容为 <|ph_space|>。
转录文本保持不变（未删除任何单词）。此方法旨在教导模型生成自然的词间过渡。

数据特征（Features）

sequence：完整的 LLASA 训练序列，包含混合文本/音素和 XCodec2 令牌。
transcription_full：与实际音频（左侧 + 右侧部分）匹配的转录文本。
transcription_original：原始的完整转录文本。
removed_words：为填充训练而删除的单词（删除样本中此项为空）。
phonemes_annotated：带有标记的混合文本/音素令牌。
to_convert：条件类型："text"、"phonemes" 或 "text and phonemes"。
edit_type：编辑类型："substitution" 或 "deletion"。
phoneme_probability：用于此样本的概率（用于调试）。
xcodec2_tokens：XCodec2 音频令牌表示。

序列格式

序列遵循以下格式： {mixed_left}<|start_phon_gen|>{mixed_removed}<|end_phon_gen|>{mixed_right}<|start_audio|>{right_audio}<|start_of_speech|>{left_audio}<|SPEECH_GENERATION_START|>{removed_audio}<|SPEECH_GENERATION_END|>

重要说明：

训练脚本会添加指令前缀（"Generate the missing speech from..."），因此该前缀未包含在数据中。
XCodec2 音频令牌保持不变——仅混合了文本/音素条件。
所有片段（左侧、删除部分、右侧）使用相同的课程概率——因此，当 p=0 时得到纯文本，p=1 时得到纯音素。

搜集汇总

数据集介绍

构建方式

在语音合成与对齐的研究领域中，SPEEED_s3_words_french_0k-100k数据集的构建体现了精密的工程化设计。该数据集源自AAdonis/multilingual_audio_alignments的法语子集，通过混合文本与音素条件进行课程学习调度。构建过程中，初始阶段完全保留文本形式，随着样本推进，逐步将词汇转换为音素表示，转换过程跨越40万行数据，最终实现近乎纯音素的表征。同时，数据集中嵌入了20%的删除训练样本，通过在词间随机间隙中截取0.2秒的过渡音频，并对应特定音素标记，以教导模型生成自然的词间语音过渡。

使用方法

在语音生成与编辑任务中，该数据集可直接用于训练条件音频生成模型。使用者需加载序列字段，其中已集成混合的文本/音素条件及音频令牌，训练脚本会自动添加指令前缀以构建完整输入。模型学习根据提供的左、右上下文及条件信息，预测被移除或过渡段的音频表示。通过调整课程学习参数，可控制训练过程中文本与音素条件的平衡，而删除训练样本则专门优化模型对无声过渡或词间连接的生成能力，适用于需要精细控制语音流畅度的合成系统。

背景与挑战

背景概述

SPEEED_s3_words_french_0k-100k数据集是语音处理领域的一项专业资源，专注于法语语音对齐与生成任务。该数据集由AAdonis/multilingual_audio_alignments项目衍生而来，旨在支持基于混合文本/音素条件的语音合成模型训练。其核心研究问题在于如何通过课程学习策略，动态调整文本与音素表示的比例，以优化模型对语音间隙和过渡的建模能力。该数据集的构建体现了多模态语音生成的前沿方向，为提升语音合成的自然度与流畅性提供了关键数据支撑，对推动低资源语言语音技术发展具有积极影响。

当前挑战

该数据集主要应对语音生成中跨模态对齐的挑战，具体包括如何精确建模单词间的自然过渡，以及如何处理文本与音素混合表示下的序列一致性。在构建过程中，挑战集中于设计有效的课程学习调度机制，以平衡文本与音素条件在训练中的比例；同时，删除训练需确保音频片段的切割与语音内容的对齐准确无误，避免引入人工痕迹。此外，处理大规模多语言音频对齐数据时，保持语音特征与标注信息的一致性也是一项技术难点。

常用场景

经典使用场景

在语音生成与音频对齐的研究领域中，SPEEED_s3_words_french_0k-100k数据集以其独特的混合文本/音素条件机制，为语音合成模型的训练提供了经典范例。该数据集通过课程学习策略，逐步引导模型从文本条件过渡到音素条件，有效模拟了人类语音生成的渐进过程。其删除训练机制进一步强化了模型对词间自然过渡的建模能力，使得模型能够生成流畅且连贯的语音片段，为高质量语音合成系统的开发奠定了数据基础。

解决学术问题

该数据集主要解决了语音合成领域中文本到语音对齐的精确性问题，以及模型对复杂语音现象（如词间停顿、音素变体）的建模挑战。通过引入混合条件与删除训练，它促进了模型对语音连续性和自然度的学习，减少了合成语音中的机械感。其意义在于提供了一种结构化数据框架，推动了基于课程学习的语音生成方法的发展，并为多语言语音合成研究提供了可扩展的数据处理范式，对提升语音合成技术的真实感与适应性具有重要影响。

实际应用

在实际应用层面，SPEEED_s3_words_french_0k-100k数据集可直接服务于法语语音合成系统的开发与优化，例如智能助手、有声读物生成和语音交互界面。其精细的音频对齐与音素标注支持了高保真语音的生成，适用于需要自然语音输出的场景，如教育软件、娱乐媒体和辅助通信工具。此外，数据集的课程学习设计为工业级语音模型的迭代训练提供了参考，有助于缩短模型部署周期并提升终端用户体验。

数据集最近研究