five

hifitts2_audio_edit_mfa_v8

收藏
Hugging Face2025-10-23 更新2025-10-24 收录
下载链接:
https://huggingface.co/datasets/AdoCleanCode/hifitts2_audio_edit_mfa_v8
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含说话人ID、文件名、完整转录、删除的单词、音素、DAC标记等信息。数据集由多个批次组成,每个批次包含不同大小的文件和示例数量。数据集总大小约为3.89 GB,下载大小约为1.70 GB。

This dataset contains information including speaker ID, file name, full transcription, deleted words, phonemes, and DAC tags. The dataset is composed of multiple batches, each with files of varying sizes and a distinct number of samples. The total size of the dataset is approximately 3.89 GB, and its download size is around 1.70 GB.
创建时间:
2025-10-22
原始信息汇总

数据集概述

基本信息

  • 数据集名称: AdoCleanCode/hifitts2_audio_edit_mfa_v8
  • 下载大小: 2,176,149,367 字节
  • 数据集大小: 4,981,010,469 字节
  • 配置名称: default

数据特征

  • speaker_id: 字符串类型
  • flac_filename: 字符串类型
  • transcription_full: 字符串类型
  • removed_words: 字符串类型
  • transcription_without_removed: 字符串类型
  • phonemes_full: 字符串类型
  • phonemes_removed: 字符串类型
  • phonemes_annotated: 字符串类型
  • dac_tokens: 字符串类型
  • sequence: 字符串类型
  • match: 布尔类型
  • removed_start_time: 浮点64类型
  • removed_end_time: 浮点64类型

数据划分

数据集包含87个批次划分:

批次名称 样本数量 数据大小(字节)
batch_001 1,003 57,222,259
batch_002 1,000 58,515,689
batch_003 1,000 59,599,265
batch_004 1,000 60,498,369
batch_005 1,001 59,921,087
batch_006 1,000 58,342,934
batch_007 1,049 56,527,059
batch_008 1,024 57,869,168
batch_009 1,019 58,180,688
batch_010 1,000 57,210,374
batch_011 1,000 58,520,369
batch_012 1,011 55,550,824
batch_013 1,010 55,343,181
batch_014 1,012 57,053,972
batch_015 1,041 59,075,127
batch_016 1,000 57,649,419
batch_017 1,001 56,215,528
batch_018 1,018 56,227,850
batch_019 1,030 59,241,908
batch_020 1,019 57,827,764
batch_021 1,000 54,460,525
batch_022 1,000 54,717,147
batch_023 1,002 56,528,432
batch_024 1,000 58,521,834
batch_025 1,000 60,173,204
batch_026 1,049 61,386,949
batch_027 1,000 58,174,617
batch_028 1,044 60,144,226
batch_029 1,000 55,057,476
batch_030 1,000 54,113,681
batch_031 1,000 52,958,364
batch_032 1,000 55,096,343
batch_033 1,000 56,187,812
batch_034 1,024 55,650,905
batch_035 1,000 56,525,562
batch_036 1,000 55,792,055
batch_037 1,008 57,356,661
batch_038 1,000 56,000,493
batch_039 1,000 58,799,777
batch_040 1,000 57,265,782
batch_041 1,000 56,837,523
batch_042 1,020 57,341,888
batch_043 1,016 58,596,992
batch_044 1,000 56,767,034
batch_045 1,003 57,270,547
batch_046 1,003 55,634,052
batch_047 1,000 56,120,569
batch_048 1,000 59,221,033
batch_049 1,000 56,090,253
batch_050 1,002 58,107,237
batch_051 1,001 53,369,940
batch_052 1,000 53,917,152
batch_053 1,039 59,480,121
batch_054 1,000 55,186,663
batch_055 1,039 58,995,579
batch_056 1,002 53,777,200
batch_057 1,000 56,568,635
batch_058 1,000 56,628,294
batch_059 1,000 56,623,917
batch_060 1,000 56,681,038
batch_061 1,000 60,373,375
batch_062 1,000 58,554,194
batch_063 1,049 59,020,367
batch_064 1,000 56,675,337
batch_065 1,000 55,758,245
batch_066 1,000 56,583,932
batch_067 1,000 56,236,563
batch_068 1,000 58,037,391
batch_069 1,000 56,701,581
batch_070 1,000 58,197,046
batch_071 1,000 57,087,353
batch_072 1,000 57,544,717
batch_073 1,000 56,601,544
batch_074 1,000 57,340,173
batch_075 1,000 58,372,552
batch_076 1,000 59,200,394
batch_077 1,000 57,528,506
batch_078 1,000 60,086,348
batch_079 1,000 57,442,110
batch_080 1,000 57,018,225
batch_081 1,000 56,844,640
batch_082 1,000 57,750,559
batch_083 1,000 57,788,967
batch_084 1,000 55,775,162
batch_085 1,000 58,860,509
batch_086 1,000 56,452,106
batch_087 1,000 58,458,227

数据文件结构

所有数据文件均位于data目录下,按照批次划分存储:

  • data/batch_001-*
  • data/batch_002-*
  • ...
  • data/batch_087-*
搜集汇总
数据集介绍
main_image_url
构建方式
在语音处理领域,hifitts2_audio_edit_mfa_v8数据集通过系统化方法构建,涵盖87个批次共计超过8万条音频样本。该数据集整合了说话人识别、音频文件及多模态转录信息,利用MFA(Montreal Forced Aligner)工具进行音素对齐处理,确保语音与文本的精确匹配。构建过程中,通过移除特定词汇并标注对应音素序列,增强了数据在语音编辑任务中的实用性,同时保留了完整的原始转录和音素注释,为研究提供了丰富的语音-文本对齐基础。
特点
该数据集在语音技术领域展现出多维特征优势,包含说话人ID、音频文件名、完整转录及移除词汇的详细标注。音素层面提供了完整、移除部分和注释后的三种序列,结合DAC tokens和时序匹配标志,支持精细的语音分析。数据集规模庞大,总大小约4.98GB,覆盖多样化的语音样本,其结构化特征设计便于进行语音合成、识别及编辑任务的深入研究,体现了高精度对齐与多层级注释的融合。
使用方法
针对语音处理研究,该数据集可通过HuggingFace平台直接加载,按批次划分的数据文件支持灵活调用。用户可依据说话人ID或音频特征筛选样本,利用转录与音素注释进行模型训练。移除词汇及其时间戳信息适用于语音编辑实验,而DAC tokens为音频生成任务提供编码基础。数据集的分批结构便于分布式处理,适用于训练语音识别、合成及对齐模型,实现端到端的语音技术开发。
背景与挑战
背景概述
在语音处理领域,高质量音频数据集的构建对语音识别与合成技术发展具有关键意义。hifitts2_audio_edit_mfa_v8数据集作为语音技术研究的重要资源,其设计聚焦于多维度语音特征标注,涵盖说话人身份、完整转写文本、音素序列及时间对齐信息。该数据集通过整合音频文件与精细化语言学标注,为语音模型训练提供了跨模态对齐数据支撑,尤其适用于研究语音编辑、音素级修改对声学特征的影响。其分批次组织结构与大规模样本容量,体现了现代语音数据集工程化构建的典型范式。
当前挑战
该数据集致力于解决语音编辑任务中音素级修改的精准定位问题,其核心挑战在于如何实现文本转录与音频片段的时间对齐一致性。构建过程中需克服多维度标注协同的复杂性,包括音素边界标注的时序精度控制、被移除词汇的声学特征隔离,以及跨模态数据匹配验证。此外,大规模音频数据的存储分块与特征提取流程优化,亦对计算资源分配与数据处理管道设计提出较高要求。
常用场景
经典使用场景
在语音处理研究领域,hifitts2_audio_edit_mfa_v8数据集凭借其精细的音素标注和完整的音频-文本对齐信息,成为语音识别模型训练与评估的重要基准。该数据集通过提供多层次的语音标注,包括完整转录文本、移除词汇标记及音素序列,为端到端语音识别系统的开发提供了标准化训练素材。其独特的音素级别标注体系特别适用于研究语音单元边界检测和声学模型优化,为语音技术的基础研究奠定了数据基础。
解决学术问题
该数据集有效解决了语音技术研究中音素边界模糊和标注不一致的学术难题。通过提供精确的移除词汇时间戳和音素对齐信息,研究人员能够深入探究语音单元在时序上的分布特性。这种精细标注为语音识别错误分析、发音变异研究以及多模态语音处理提供了可靠的数据支撑,显著提升了语音技术研究的可重复性和可比性,推动了语音学与计算语言学的交叉研究进展。
衍生相关工作
基于该数据集的丰富标注信息,学术界衍生出多项重要研究成果。在语音识别方向,推动了基于音素约束的端到端模型优化研究;在语音合成领域,催生了基于精细音素控制的韵律生成方法。同时,该数据集还支撑了语音篡改检测、发音错误自动纠正等创新性研究方向的开展,为语音技术的前沿探索提供了持续的数据动力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作