Ming-Freeform-Audio-Edit
收藏github2025-10-01 更新2025-10-03 收录
下载链接:
https://github.com/inclusionAI/Ming-Freeform-Audio-Edit
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于评估Ming-UniAudio模型下游编辑任务的基准测试集,涵盖7种不同的编辑任务:语义编辑(自由形式删除、插入、替换)和声学编辑(时间拉伸、音高转换、方言转换、情感转换、音量转换)。音频样本来源于seed-tts eval、LibriTTS和Gigaspeech等知名开源数据集。数据集包含中文和英文样本,提供了详细的样本统计和评估指标。
This is a benchmark dataset for evaluating downstream editing tasks of the Ming-UniAudio model, covering 7 distinct editing tasks: semantic editing (free-form deletion, insertion, substitution) and acoustic editing (time stretching, pitch shifting, dialect conversion, emotion conversion, volume conversion). The audio samples are sourced from well-known open-source datasets such as seed-tts eval, LibriTTS, and Gigaspeech. The dataset contains both Chinese and English samples, and provides detailed sample statistics and evaluation metrics.
创建时间:
2025-09-29
原始信息汇总
Ming-Freeform-Audio-Edit 数据集概述
数据集简介
Ming-Freeform-Audio-Edit 是用于评估 Ming-UniAudio 模型下游编辑任务的基准测试集,涵盖语义编辑和声学编辑两大类任务。
任务分类
语义编辑任务
- 自由形式删除
- 自由形式插入
- 自由形式替换
声学编辑任务
- 时间拉伸
- 音高转换
- 方言转换
- 情感转换
- 音量转换
数据来源
音频样本来源于知名开源数据集:
- seed-tts eval
- LibriTTS
- Gigaspeech
数据集统计
语义编辑任务
完整版本
| 任务类型样本数语言 | 中文删除 | 中文插入 | 中文替换 | 英文删除 | 英文插入 | 英文替换 |
|---|---|---|---|---|---|---|
| 基于索引 | 186 | 180 | 36 | 138 | 100 | 67 |
| 基于内容 | 95 | 110 | 289 | 62 | 99 | 189 |
| 总计 | 281 | 290 | 325 | 200 | 199 | 256 |
基础版本
| 任务类型样本数语言 | 中文删除 | 中文插入 | 中文替换 | 英文删除 | 英文插入 | 英文替换 |
|---|---|---|---|---|---|---|
| 基于索引 | 92 | 65 | 29 | 47 | 79 | 29 |
| 基于内容 | 78 | 105 | 130 | 133 | 81 | 150 |
| 总计 | 170 | 170 | 159 | 180 | 160 | 179 |
声学编辑任务
| 任务类型样本数语言 | 中文 | 英文 |
|---|---|---|
| 时间拉伸 | 50 | 50 |
| 音高转换 | 50 | 50 |
| 方言转换 | 250 | --- |
| 情感转换 | 84 | 72 |
| 音量转换 | 50 | 50 |
评估指标
语义编辑评估指标
- 编辑区域词错误率
- 非编辑区域词错误率
- 编辑操作准确率
- 说话人相似度
声学编辑评估指标
- 词错误率
- 说话人相似度
- 方言和情感转换任务额外使用大语言模型评估转换准确率
数据获取
数据集文件可从以下平台下载:
- HuggingFace:https://huggingface.co/datasets/inclusionAI/Ming-Freeform-Audio-Edit-Benchmark/tree/main
- ModelScope:https://modelscope.cn/datasets/inclusionAI/Ming-Freeform-Audio-Edit-Benchmark/files
搜集汇总
数据集介绍

构建方式
在音频编辑技术蓬勃发展的背景下,Ming-Freeform-Audio-Edit数据集通过整合多个知名开源音频资源,如seed-tts eval、LibriTTS和Gigaspeech,构建了一个全面的基准测试集。该数据集覆盖了语义编辑和声学编辑两大类别,其中语义编辑包括自由形式删除、插入和替换任务,声学编辑则涵盖时间拉伸、音高转换、方言转换、情感转换和音量转换。构建过程中,数据被划分为基础版和完整版,分别针对不同语言(中文和英文)的索引基与内容基编辑任务进行了细致标注,确保了数据多样性和任务覆盖的广度。
特点
该数据集以其多任务集成和语言多样性为显著特点,囊括了七种不同的音频编辑任务,能够全面评估模型在复杂场景下的编辑能力。数据样本在中文和英文环境下均具有代表性,语义编辑任务进一步细分为索引基与内容基操作,提供了灵活的编辑指令形式。声学编辑任务则专注于音频属性的转换,如方言和情感的变化,为跨领域研究提供了丰富素材。数据集的结构化设计支持高效的评估流程,同时兼顾了实际应用中的各种编辑需求。
使用方法
为便于研究者评估音频编辑模型,该数据集提供了详细的评估指南和脚本工具。用户需从指定平台下载音频和元数据文件,并按照要求组织目录结构。评估过程依赖于预训练模型,如Whisper、Paraformer和WavLM,以计算词错误率和说话人相似度等关键指标。通过运行提供的Shell脚本,用户可以针对语义或声学编辑任务进行自动化评估,脚本参数允许自定义语言、任务类型和评估模式,确保了评估的灵活性和准确性。对于方言和情感转换任务,还引入了大语言模型API以增强转换效果的评估。
背景与挑战
背景概述
音频编辑领域在人工智能技术推动下,正从传统信号处理向语义与声学双重维度拓展。Ming-Freeform-Audio-Edit数据集由inclusionAI团队于2024年构建,作为Ming-UniAudio模型的下游任务评估基准,聚焦于自由形式音频编辑的核心研究问题。该数据集整合了seed-tts eval、LibriTTS和GigASpeech等权威开源语料,覆盖中英双语环境下的语义编辑与声学编辑两大范畴,为跨模态音频生成技术提供了标准化评测框架,显著推进了智能音频处理在语音合成与转换方向的应用边界。
当前挑战
语义编辑任务需解决文本与音频跨模态对齐的复杂性,例如自由删除操作中需保持非编辑区域的语音连贯性,而插入任务则面临韵律边界自然融合的难题。声学编辑中方言转换要求模型捕捉地域性音素特征,情感转换需克服声学参数与情感表达的非线性映射关系。数据集构建过程中,索引标注与内容标注的双重标准增加了数据清洗难度,多任务评估指标的统一性设计亦对评测体系的鲁棒性提出更高要求。
常用场景
经典使用场景
在音频编辑技术领域,Ming-Freeform-Audio-Edit数据集作为基准测试集,专门用于评估多语言音频编辑任务的性能。其覆盖了语义编辑和声学编辑两大类别,包括自由形式删除、插入、替换以及时间拉伸、音高转换等七项任务。通过整合来自seed-tts eval、LibriTTS和GigaSpeech等开源数据集的音频样本,该数据集为研究者提供了标准化的测试环境,广泛应用于音频生成模型的编辑能力验证。
实际应用
在实际应用中,该数据集支撑了智能语音助手的内容动态修改、有声读物的实时编辑等场景。例如,通过方言转换任务可实现区域化语音适配,情感转换则能增强虚拟角色的表达力。这些功能直接服务于媒体制作、教育科技和辅助通信等领域,推动个性化音频交互技术的发展。
衍生相关工作
基于该数据集衍生的经典研究包括Ming-UniAudio模型的迭代优化,以及针对多模态编辑的跨任务学习方法。许多工作通过结合Whisper、Paraformer等语音识别模型与WavLM声纹特征,构建了端到端的评估流程。这些成果进一步催生了面向低资源语言的编辑策略探索,形成了音频编辑技术生态的持续演进。
以上内容由遇见数据集搜集并总结生成



