Ming-Freeform-Audio-Edit

github2025-10-01 更新2025-10-03 收录

下载链接：

https://github.com/inclusionAI/Ming-Freeform-Audio-Edit

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估Ming-UniAudio模型下游编辑任务的基准测试集，涵盖7种不同的编辑任务：语义编辑（自由形式删除、插入、替换）和声学编辑（时间拉伸、音高转换、方言转换、情感转换、音量转换）。音频样本来源于seed-tts eval、LibriTTS和Gigaspeech等知名开源数据集。数据集包含中文和英文样本，提供了详细的样本统计和评估指标。

This is a benchmark dataset for evaluating downstream editing tasks of the Ming-UniAudio model, covering 7 distinct editing tasks: semantic editing (free-form deletion, insertion, substitution) and acoustic editing (time stretching, pitch shifting, dialect conversion, emotion conversion, volume conversion). The audio samples are sourced from well-known open-source datasets such as seed-tts eval, LibriTTS, and Gigaspeech. The dataset contains both Chinese and English samples, and provides detailed sample statistics and evaluation metrics.

创建时间：

2025-09-29

原始信息汇总

Ming-Freeform-Audio-Edit 数据集概述

数据集简介

Ming-Freeform-Audio-Edit 是用于评估 Ming-UniAudio 模型下游编辑任务的基准测试集，涵盖语义编辑和声学编辑两大类任务。

任务分类

语义编辑任务

自由形式删除
自由形式插入
自由形式替换

声学编辑任务

时间拉伸
音高转换
方言转换
情感转换
音量转换

数据来源

音频样本来源于知名开源数据集：

seed-tts eval
LibriTTS
Gigaspeech

数据集统计

语义编辑任务

完整版本

任务类型样本数语言	中文删除	中文插入	中文替换	英文删除	英文插入	英文替换
基于索引	186	180	36	138	100	67
基于内容	95	110	289	62	99	189
总计	281	290	325	200	199	256

基础版本

任务类型样本数语言	中文删除	中文插入	中文替换	英文删除	英文插入	英文替换
基于索引	92	65	29	47	79	29
基于内容	78	105	130	133	81	150
总计	170	170	159	180	160	179

声学编辑任务

任务类型样本数语言	中文	英文
时间拉伸	50	50
音高转换	50	50
方言转换	250	---
情感转换	84	72
音量转换	50	50

评估指标

语义编辑评估指标

编辑区域词错误率
非编辑区域词错误率
编辑操作准确率
说话人相似度

声学编辑评估指标

词错误率
说话人相似度
方言和情感转换任务额外使用大语言模型评估转换准确率

数据获取

数据集文件可从以下平台下载：

HuggingFace：https://huggingface.co/datasets/inclusionAI/Ming-Freeform-Audio-Edit-Benchmark/tree/main
ModelScope：https://modelscope.cn/datasets/inclusionAI/Ming-Freeform-Audio-Edit-Benchmark/files

搜集汇总

数据集介绍

构建方式

在音频编辑技术蓬勃发展的背景下，Ming-Freeform-Audio-Edit数据集通过整合多个知名开源音频资源，如seed-tts eval、LibriTTS和Gigaspeech，构建了一个全面的基准测试集。该数据集覆盖了语义编辑和声学编辑两大类别，其中语义编辑包括自由形式删除、插入和替换任务，声学编辑则涵盖时间拉伸、音高转换、方言转换、情感转换和音量转换。构建过程中，数据被划分为基础版和完整版，分别针对不同语言（中文和英文）的索引基与内容基编辑任务进行了细致标注，确保了数据多样性和任务覆盖的广度。

特点

该数据集以其多任务集成和语言多样性为显著特点，囊括了七种不同的音频编辑任务，能够全面评估模型在复杂场景下的编辑能力。数据样本在中文和英文环境下均具有代表性，语义编辑任务进一步细分为索引基与内容基操作，提供了灵活的编辑指令形式。声学编辑任务则专注于音频属性的转换，如方言和情感的变化，为跨领域研究提供了丰富素材。数据集的结构化设计支持高效的评估流程，同时兼顾了实际应用中的各种编辑需求。

使用方法

为便于研究者评估音频编辑模型，该数据集提供了详细的评估指南和脚本工具。用户需从指定平台下载音频和元数据文件，并按照要求组织目录结构。评估过程依赖于预训练模型，如Whisper、Paraformer和WavLM，以计算词错误率和说话人相似度等关键指标。通过运行提供的Shell脚本，用户可以针对语义或声学编辑任务进行自动化评估，脚本参数允许自定义语言、任务类型和评估模式，确保了评估的灵活性和准确性。对于方言和情感转换任务，还引入了大语言模型API以增强转换效果的评估。

背景与挑战

背景概述

音频编辑领域在人工智能技术推动下，正从传统信号处理向语义与声学双重维度拓展。Ming-Freeform-Audio-Edit数据集由inclusionAI团队于2024年构建，作为Ming-UniAudio模型的下游任务评估基准，聚焦于自由形式音频编辑的核心研究问题。该数据集整合了seed-tts eval、LibriTTS和GigASpeech等权威开源语料，覆盖中英双语环境下的语义编辑与声学编辑两大范畴，为跨模态音频生成技术提供了标准化评测框架，显著推进了智能音频处理在语音合成与转换方向的应用边界。

当前挑战

语义编辑任务需解决文本与音频跨模态对齐的复杂性，例如自由删除操作中需保持非编辑区域的语音连贯性，而插入任务则面临韵律边界自然融合的难题。声学编辑中方言转换要求模型捕捉地域性音素特征，情感转换需克服声学参数与情感表达的非线性映射关系。数据集构建过程中，索引标注与内容标注的双重标准增加了数据清洗难度，多任务评估指标的统一性设计亦对评测体系的鲁棒性提出更高要求。

常用场景

经典使用场景

在音频编辑技术领域，Ming-Freeform-Audio-Edit数据集作为基准测试集，专门用于评估多语言音频编辑任务的性能。其覆盖了语义编辑和声学编辑两大类别，包括自由形式删除、插入、替换以及时间拉伸、音高转换等七项任务。通过整合来自seed-tts eval、LibriTTS和GigaSpeech等开源数据集的音频样本，该数据集为研究者提供了标准化的测试环境，广泛应用于音频生成模型的编辑能力验证。

实际应用

在实际应用中，该数据集支撑了智能语音助手的内容动态修改、有声读物的实时编辑等场景。例如，通过方言转换任务可实现区域化语音适配，情感转换则能增强虚拟角色的表达力。这些功能直接服务于媒体制作、教育科技和辅助通信等领域，推动个性化音频交互技术的发展。

衍生相关工作

基于该数据集衍生的经典研究包括Ming-UniAudio模型的迭代优化，以及针对多模态编辑的跨任务学习方法。许多工作通过结合Whisper、Paraformer等语音识别模型与WavLM声纹特征，构建了端到端的评估流程。这些成果进一步催生了面向低资源语言的编辑策略探索，形成了音频编辑技术生态的持续演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集