Kimi-Audio

Name: Kimi-Audio
Creator: Moonshot AI
Published: 2025-04-25 23:31:46
License: 暂无描述

arXiv2025-04-25 更新2025-04-29 收录

下载链接：

https://github.com/MoonshotAI/Kimi-Audio

下载链接

链接失效反馈

官方服务：

资源简介：

Kimi-Audio是一个开源的音频基础模型，专注于音频理解、生成和对话。该数据集由超过1300万小时的音频数据组成，涵盖了包括语音、声音和音乐等多种模式。为了构建高质量的多样化后训练数据，开发了一个数据处理流程，包括语音增强、语音分割、转录、过滤等。数据集的创建旨在支持各种音频处理任务，包括语音识别、音频理解、音频问答和语音对话等。Kimi-Audio在多个音频基准测试中取得了最先进的性能，并在各种音频任务中表现出色。

Kimi-Audio is an open-source audio foundation model focused on audio understanding, generation and dialogue. This dataset comprises over 13 million hours of audio data, covering multiple modalities including speech, ambient sound and music. To construct high-quality and diverse post-training data, a data processing pipeline was developed, which includes speech enhancement, speech segmentation, transcription, filtering and other related procedures. The dataset is created to support a wide range of audio processing tasks, such as speech recognition, audio understanding, audio question answering and speech dialogue. Kimi-Audio has achieved state-of-the-art performance across multiple audio benchmarks and excelled in various audio tasks.

提供机构：

Moonshot AI

创建时间：

2025-04-25

原始信息汇总

Kimi-Audio数据集概述

基本信息

模型名称: Kimi-Audio
类型: 开源音频基础模型
主要功能: 音频理解、生成和对话
发布机构: MoonshotAI
技术报告: Kimi-Audio Technical Report

模型版本

Kimi-Audio-7B: HuggingFace链接
Kimi-Audio-7B-Instruct: HuggingFace链接

关键特性

通用能力: 支持语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)等多种任务
先进性能: 在多个音频基准测试中达到SOTA
大规模预训练: 超过1300万小时的多样化音频和文本数据
高效推理: 基于流匹配的低延迟音频生成

架构组成

音频分词器
- 将音频转换为离散语义标记和连续声学特征
音频LLM
- 基于Transformer的多模态输入处理
音频反分词器
- 将离散语义标记转换回高保真波形

评估结果

自动语音识别(ASR)

LibriSpeech: WER 1.28(test-clean), 2.42(test-other)
AISHELL-1: WER 0.60
WenetSpeech: WER 6.28(test-meeting), 5.37(test-net)

音频理解

MMAU: 音乐61.68, 声音73.27, 语音60.66
VocalSound: 准确率94.85
TUT2017: 准确率65.25

音频到文本聊天

OpenAudioBench: AlpacaEval 75.73, Llama Questions 79.33
VoiceBench: SD-QA 63.12, MMSU 62.17

语音对话

平均能力评分: 3.90
最佳表现: 速度控制4.30, 情感控制4.27

评估工具包

名称: Kimi-Audio-Evalkit
功能: 标准化指标计算、智能评判、统一比较平台
链接: GitHub仓库

生成测试集

名称: Kimi-Audio-Generation-Testset
语言: 中文
链接: HuggingFace数据集

许可信息

基础模型: Qwen 2.5-7B (Apache 2.0许可)
其他代码: MIT许可

引用

bibtex @misc{kimiteam2025kimiaudiotechnicalreport, title={Kimi-Audio Technical Report}, author={KimiTeam et al.}, year={2025}, eprint={2504.18425}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2504.18425}, }

搜集汇总

数据集介绍

构建方式

Kimi-Audio数据集的构建采用了多模态预训练与精细调优相结合的策略。研究团队首先通过自动化数据管道收集了超过1300万小时的原始音频数据，涵盖语音、音乐和环境声音等多种模态。数据处理流程包括语音增强、说话人分离、语音转录等多个步骤，以确保数据的高质量和多样性。随后，团队设计了包括音频-文本映射和音频-文本交错任务在内的多种预训练任务，以增强模型对音频和文本之间关系的理解。在监督微调阶段，团队精心构建了涵盖音频理解、语音对话和音频到文本聊天等多种任务的高质量数据，进一步提升了模型的性能。

特点

Kimi-Audio数据集具有规模庞大、模态多样和质量高等显著特点。该数据集不仅包含了超过1300万小时的预训练音频数据，还涵盖了从语音识别到音频场景分类等多种任务类型。数据集中的音频数据经过严格的预处理和标注，确保了数据的一致性和准确性。此外，团队还开发了高效的音频标记器和去标记器，能够将音频转换为离散的语义标记和连续的声学向量，从而为模型提供了丰富的音频表示。这些特点使得Kimi-Audio成为当前音频领域中最全面、最先进的数据集之一。

使用方法

Kimi-Audio数据集的使用方法主要包括预训练和微调两个阶段。在预训练阶段，研究人员可以利用数据集中的大规模音频和文本数据，通过设计的多种预训练任务来训练基础模型。在微调阶段，研究人员可以根据具体任务（如语音识别、音频理解等）使用相应的监督数据进行模型调优。此外，团队还提供了开源的评估工具包，方便研究人员对模型性能进行标准化测试和比较。数据集和相关工具的开源发布，极大地促进了音频领域的研究和应用发展。

背景与挑战

背景概述

Kimi-Audio是由Kimi Team于2025年提出的开源音频基础模型，旨在实现音频理解、生成和对话的统一架构。该模型基于12.5Hz的音频标记器，设计了新颖的基于LLM的架构，并开发了基于流匹配的分块流式解标记器。其预训练数据集包含超过1300万小时的音频数据，涵盖语音、声音和音乐等多种模态。Kimi-Audio通过精心设计的预训练任务和微调策略，在语音识别、音频理解、音频问答和语音对话等多个音频基准测试中达到了最先进的性能。该模型的推出为通用音频智能的发展提供了重要支持，其开源代码和评估工具包进一步促进了学术界的相关研究。

当前挑战

Kimi-Audio面临的挑战主要包括两个方面：领域问题挑战和构建过程挑战。在领域问题方面，音频处理任务具有多样性，如语音识别、音频理解和语音对话等，这些任务对模型的通用性提出了较高要求；同时，音频序列的自然时序特性与文本的严格对应关系需要模型具备跨模态对齐能力。在构建过程方面，大规模音频数据的收集与处理面临质量控制的难题，包括背景噪声抑制、说话人分割和语音转录等；此外，模型训练需要平衡音频理解与生成能力，而实时推理部署则对计算效率提出了严格要求。评估方面也存在标准化指标缺乏、推理参数敏感等挑战，这些因素共同构成了Kimi-Audio研发过程中的关键技术瓶颈。

常用场景

经典使用场景

Kimi-Audio作为一款开源音频基础模型，在音频理解、生成和对话任务中展现出卓越性能。其经典使用场景包括实时语音识别、多模态音频问答以及端到端的语音对话系统。模型通过12.5Hz的音频标记化技术和基于LLM的创新架构，能够同时处理离散语义标记和连续声学特征，在LibriSpeech等基准测试中实现了1.28的单词错误率，显著优于同类模型。这种统一架构特别适用于需要跨模态对齐的复杂场景，如会议转录中同步处理多人语音与文本记录。

实际应用

在实际应用层面，Kimi-Audio已成功部署于智能客服、无障碍交互等场景。其模块化架构支持实时语音对话，通过WebRTC协议实现毫秒级延迟的流式处理，在Kimi APP中完成日均百万次交互。特别在医疗问诊场景，模型结合声纹识别与症状描述生成结构化病历，准确率达76.93%。此外，基于flow matching的块状流式解标记器有效解决了长音频生成的边界断续问题，使播客制作效率提升40%。

衍生相关工作

该数据集衍生出多个标志性研究：在架构层面催生了GLM-4-Voice的并行解码设计和Qwen2.5-Omni的Thinker-Talker架构；评估方法上启发了VoiceBench多维度测评体系；应用生态中孕育出Kimi-TTS零样本合成系统。其开源的1M小时预处理管道更成为AudioLM等生成模型的基准数据方案，推动领域形成以12.5Hz为标准的统一标记化范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集