audio_edit4_tikgpu08_1761475214_1362649
收藏Hugging Face2025-10-27 更新2025-10-28 收录
下载链接:
https://huggingface.co/datasets/AdoCleanCode/audio_edit4_tikgpu08_1761475214_1362649
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含多个批次的语音数据集,每个批次包含一定数量的语音文件及其相关信息。具体信息包括说话者ID、FLAC文件名、完整转录、去除某些词汇后的转录、完整音素、去除音素、注释音素、DAC标记、序列信息、匹配标志以及去除词汇的开始和结束时间。
创建时间:
2025-10-26
原始信息汇总
数据集概述
基本信息
- 数据集名称: AdoCleanCode/audio_edit4_tikgpu08_1761475214_1362649
- 下载大小: 1,616,348,968 字节
- 数据集大小: 3,682,089,712 字节
数据特征
- speaker_id: 字符串类型
- flac_filename: 字符串类型
- transcription_full: 字符串类型
- removed_words: 字符串类型
- transcription_without_removed: 字符串类型
- phonemes_full: 字符串类型
- phonemes_removed: 字符串类型
- phonemes_annotated: 字符串类型
- dac_tokens: 字符串类型
- sequence: 字符串类型
- match: 布尔类型
- removed_start_time: 浮点64类型
- removed_end_time: 浮点64类型
数据划分
| 批次 | 样本数量 | 数据大小(字节) |
|---|---|---|
| batch_001 | 2,877 | 178,964,115 |
| batch_002 | 2,825 | 176,237,091 |
| batch_003 | 2,851 | 177,799,187 |
| batch_004 | 2,869 | 179,075,799 |
| batch_005 | 2,811 | 174,997,591 |
| batch_006 | 2,805 | 174,332,541 |
| batch_007 | 2,881 | 178,931,431 |
| batch_008 | 2,940 | 181,653,666 |
| batch_009 | 2,982 | 186,314,065 |
| batch_010 | 2,730 | 168,741,749 |
| batch_011 | 2,695 | 166,658,407 |
| batch_012 | 2,698 | 168,740,190 |
| batch_013 | 2,688 | 167,683,220 |
| batch_014 | 2,973 | 186,248,332 |
| batch_015 | 2,949 | 185,194,500 |
| batch_016 | 3,025 | 189,723,796 |
| batch_017 | 2,841 | 177,848,537 |
| batch_018 | 2,675 | 166,783,783 |
| batch_019 | 2,658 | 166,434,612 |
| batch_020 | 2,639 | 165,043,226 |
| batch_021 | 2,633 | 164,683,874 |
总计
- 总样本数量: 59,885
- 总数据大小: 3,682,089,712 字节
搜集汇总
数据集介绍

构建方式
在语音数据处理领域,该数据集通过系统化的音频编辑流程构建而成。原始音频文件经过专业转录处理生成完整文本,随后采用词汇移除技术创建修改版本,同时记录被删除词汇及其时间戳信息。数据集采用分批次处理策略,共包含21个独立批次,每个批次包含2633至3025个样本,总样本量达56943条,确保了数据规模与处理效率的平衡。
特点
该数据集在语音文本对齐方面展现出独特的多模态特征。每条样本同时包含音频文件名、完整转录文本、移除词汇后的简化文本,以及音素级别的三种标注形式。特别值得注意的是,数据集提供了精确的时间对齐信息,包括移除词汇的起止时间点,并配备DAC音频编码标记,为语音编辑研究提供了丰富的结构化数据支持。数据分批次存储的设计便于分布式处理与增量学习应用。
使用方法
针对语音处理任务的应用需求,该数据集支持灵活的数据加载方式。研究人员可通过指定批次编号直接访问特定数据子集,每个批次作为独立分割便于实验设计。数据字段涵盖从原始音频到文本转录的多层次信息,用户可根据需要提取音素序列、时间对齐标记或编辑前后的文本对比。这种模块化结构特别适合语音合成、音频编辑检测和语音理解等任务的模型训练与评估。
背景与挑战
背景概述
音频编辑数据集作为语音处理领域的重要资源,聚焦于语音内容的结构化分析与编辑任务。该数据集通过整合说话人身份标识、完整转录文本、移除词汇标注及音素序列等多维度特征,构建了包含约5.7万条样本的大规模语料库。其核心研究目标在于探索语音信号中特定词汇的精准定位与编辑机制,为语音合成、内容修改等应用提供数据支撑,推动了语音处理技术向细粒度操作方向发展。
当前挑战
该数据集需解决语音编辑任务中时序对齐与语义连贯的双重挑战,包括移除词汇的边界精准定位、编辑前后语音韵律的自然度保持等问题。构建过程中面临多模态数据协同标注的复杂性,如音素序列与音频片段的精确匹配、不同说话人发音差异导致的标注一致性难题,以及大规模数据处理时存储与计算资源的优化需求。
常用场景
实际应用
在实际应用中,该数据集被广泛用于开发智能语音助手的内容过滤功能、有声读物的动态编辑工具以及个性化语音生成系统。例如,在媒体制作中,可基于该数据集训练模型自动删除音频中的敏感词汇或广告内容,提升语音媒体的定制化效率与用户体验。
衍生相关工作
基于该数据集衍生的经典工作包括端到端语音编辑框架的开发、音素级对抗训练方法的提出,以及多模态语音内容修复模型的构建。这些研究不仅扩展了语音编辑在低资源语言和跨说话人场景下的适用性,还推动了语音技术向更高效、可控的方向演进。
以上内容由遇见数据集搜集并总结生成



