hifitts2_audio_edit_mfa_v8

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/AdoCleanCode/hifitts2_audio_edit_mfa_v8

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含说话人ID、文件名、完整转录、删除的单词、音素、DAC标记等信息。数据集由多个批次组成，每个批次包含不同大小的文件和示例数量。数据集总大小约为3.89 GB，下载大小约为1.70 GB。

This dataset contains information including speaker ID, file name, full transcription, deleted words, phonemes, and DAC tags. The dataset is composed of multiple batches, each with files of varying sizes and a distinct number of samples. The total size of the dataset is approximately 3.89 GB, and its download size is around 1.70 GB.

创建时间：

2025-10-22

原始信息汇总

数据集概述

基本信息

数据集名称: AdoCleanCode/hifitts2_audio_edit_mfa_v8
下载大小: 2,176,149,367 字节
数据集大小: 4,981,010,469 字节
配置名称: default

数据特征

speaker_id: 字符串类型
flac_filename: 字符串类型
transcription_full: 字符串类型
removed_words: 字符串类型
transcription_without_removed: 字符串类型
phonemes_full: 字符串类型
phonemes_removed: 字符串类型
phonemes_annotated: 字符串类型
dac_tokens: 字符串类型
sequence: 字符串类型
match: 布尔类型
removed_start_time: 浮点64类型
removed_end_time: 浮点64类型

数据划分

数据集包含87个批次划分：

批次名称	样本数量	数据大小（字节）
batch_001	1,003	57,222,259
batch_002	1,000	58,515,689
batch_003	1,000	59,599,265
batch_004	1,000	60,498,369
batch_005	1,001	59,921,087
batch_006	1,000	58,342,934
batch_007	1,049	56,527,059
batch_008	1,024	57,869,168
batch_009	1,019	58,180,688
batch_010	1,000	57,210,374
batch_011	1,000	58,520,369
batch_012	1,011	55,550,824
batch_013	1,010	55,343,181
batch_014	1,012	57,053,972
batch_015	1,041	59,075,127
batch_016	1,000	57,649,419
batch_017	1,001	56,215,528
batch_018	1,018	56,227,850
batch_019	1,030	59,241,908
batch_020	1,019	57,827,764
batch_021	1,000	54,460,525
batch_022	1,000	54,717,147
batch_023	1,002	56,528,432
batch_024	1,000	58,521,834
batch_025	1,000	60,173,204
batch_026	1,049	61,386,949
batch_027	1,000	58,174,617
batch_028	1,044	60,144,226
batch_029	1,000	55,057,476
batch_030	1,000	54,113,681
batch_031	1,000	52,958,364
batch_032	1,000	55,096,343
batch_033	1,000	56,187,812
batch_034	1,024	55,650,905
batch_035	1,000	56,525,562
batch_036	1,000	55,792,055
batch_037	1,008	57,356,661
batch_038	1,000	56,000,493
batch_039	1,000	58,799,777
batch_040	1,000	57,265,782
batch_041	1,000	56,837,523
batch_042	1,020	57,341,888
batch_043	1,016	58,596,992
batch_044	1,000	56,767,034
batch_045	1,003	57,270,547
batch_046	1,003	55,634,052
batch_047	1,000	56,120,569
batch_048	1,000	59,221,033
batch_049	1,000	56,090,253
batch_050	1,002	58,107,237
batch_051	1,001	53,369,940
batch_052	1,000	53,917,152
batch_053	1,039	59,480,121
batch_054	1,000	55,186,663
batch_055	1,039	58,995,579
batch_056	1,002	53,777,200
batch_057	1,000	56,568,635
batch_058	1,000	56,628,294
batch_059	1,000	56,623,917
batch_060	1,000	56,681,038
batch_061	1,000	60,373,375
batch_062	1,000	58,554,194
batch_063	1,049	59,020,367
batch_064	1,000	56,675,337
batch_065	1,000	55,758,245
batch_066	1,000	56,583,932
batch_067	1,000	56,236,563
batch_068	1,000	58,037,391
batch_069	1,000	56,701,581
batch_070	1,000	58,197,046
batch_071	1,000	57,087,353
batch_072	1,000	57,544,717
batch_073	1,000	56,601,544
batch_074	1,000	57,340,173
batch_075	1,000	58,372,552
batch_076	1,000	59,200,394
batch_077	1,000	57,528,506
batch_078	1,000	60,086,348
batch_079	1,000	57,442,110
batch_080	1,000	57,018,225
batch_081	1,000	56,844,640
batch_082	1,000	57,750,559
batch_083	1,000	57,788,967
batch_084	1,000	55,775,162
batch_085	1,000	58,860,509
batch_086	1,000	56,452,106
batch_087	1,000	58,458,227

数据文件结构

所有数据文件均位于data目录下，按照批次划分存储：

data/batch_001-*
data/batch_002-*
...
data/batch_087-*

搜集汇总

数据集介绍

构建方式

在语音处理领域，hifitts2_audio_edit_mfa_v8数据集通过系统化方法构建，涵盖87个批次共计超过8万条音频样本。该数据集整合了说话人识别、音频文件及多模态转录信息，利用MFA（Montreal Forced Aligner）工具进行音素对齐处理，确保语音与文本的精确匹配。构建过程中，通过移除特定词汇并标注对应音素序列，增强了数据在语音编辑任务中的实用性，同时保留了完整的原始转录和音素注释，为研究提供了丰富的语音-文本对齐基础。

特点

该数据集在语音技术领域展现出多维特征优势，包含说话人ID、音频文件名、完整转录及移除词汇的详细标注。音素层面提供了完整、移除部分和注释后的三种序列，结合DAC tokens和时序匹配标志，支持精细的语音分析。数据集规模庞大，总大小约4.98GB，覆盖多样化的语音样本，其结构化特征设计便于进行语音合成、识别及编辑任务的深入研究，体现了高精度对齐与多层级注释的融合。

使用方法

针对语音处理研究，该数据集可通过HuggingFace平台直接加载，按批次划分的数据文件支持灵活调用。用户可依据说话人ID或音频特征筛选样本，利用转录与音素注释进行模型训练。移除词汇及其时间戳信息适用于语音编辑实验，而DAC tokens为音频生成任务提供编码基础。数据集的分批结构便于分布式处理，适用于训练语音识别、合成及对齐模型，实现端到端的语音技术开发。

背景与挑战

背景概述

在语音处理领域，高质量音频数据集的构建对语音识别与合成技术发展具有关键意义。hifitts2_audio_edit_mfa_v8数据集作为语音技术研究的重要资源，其设计聚焦于多维度语音特征标注，涵盖说话人身份、完整转写文本、音素序列及时间对齐信息。该数据集通过整合音频文件与精细化语言学标注，为语音模型训练提供了跨模态对齐数据支撑，尤其适用于研究语音编辑、音素级修改对声学特征的影响。其分批次组织结构与大规模样本容量，体现了现代语音数据集工程化构建的典型范式。

当前挑战

该数据集致力于解决语音编辑任务中音素级修改的精准定位问题，其核心挑战在于如何实现文本转录与音频片段的时间对齐一致性。构建过程中需克服多维度标注协同的复杂性，包括音素边界标注的时序精度控制、被移除词汇的声学特征隔离，以及跨模态数据匹配验证。此外，大规模音频数据的存储分块与特征提取流程优化，亦对计算资源分配与数据处理管道设计提出较高要求。

常用场景

经典使用场景

在语音处理研究领域，hifitts2_audio_edit_mfa_v8数据集凭借其精细的音素标注和完整的音频-文本对齐信息，成为语音识别模型训练与评估的重要基准。该数据集通过提供多层次的语音标注，包括完整转录文本、移除词汇标记及音素序列，为端到端语音识别系统的开发提供了标准化训练素材。其独特的音素级别标注体系特别适用于研究语音单元边界检测和声学模型优化，为语音技术的基础研究奠定了数据基础。

解决学术问题

该数据集有效解决了语音技术研究中音素边界模糊和标注不一致的学术难题。通过提供精确的移除词汇时间戳和音素对齐信息，研究人员能够深入探究语音单元在时序上的分布特性。这种精细标注为语音识别错误分析、发音变异研究以及多模态语音处理提供了可靠的数据支撑，显著提升了语音技术研究的可重复性和可比性，推动了语音学与计算语言学的交叉研究进展。

衍生相关工作

基于该数据集的丰富标注信息，学术界衍生出多项重要研究成果。在语音识别方向，推动了基于音素约束的端到端模型优化研究；在语音合成领域，催生了基于精细音素控制的韵律生成方法。同时，该数据集还支撑了语音篡改检测、发音错误自动纠正等创新性研究方向的开展，为语音技术的前沿探索提供了持续的数据动力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集