five

Kimi-Audio|音频处理数据集|语音识别数据集

收藏
arXiv2025-04-25 更新2025-04-29 收录
音频处理
语音识别
下载链接:
https://github.com/MoonshotAI/Kimi-Audio
下载链接
链接失效反馈
资源简介:
Kimi-Audio是一个开源的音频基础模型,专注于音频理解、生成和对话。该数据集由超过1300万小时的音频数据组成,涵盖了包括语音、声音和音乐等多种模式。为了构建高质量的多样化后训练数据,开发了一个数据处理流程,包括语音增强、语音分割、转录、过滤等。数据集的创建旨在支持各种音频处理任务,包括语音识别、音频理解、音频问答和语音对话等。Kimi-Audio在多个音频基准测试中取得了最先进的性能,并在各种音频任务中表现出色。
提供机构:
Moonshot AI
创建时间:
2025-04-25
原始信息汇总

Kimi-Audio数据集概述

基本信息

  • 模型名称: Kimi-Audio
  • 类型: 开源音频基础模型
  • 主要功能: 音频理解、生成和对话
  • 发布机构: MoonshotAI
  • 技术报告: Kimi-Audio Technical Report

模型版本

关键特性

  • 通用能力: 支持语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)等多种任务
  • 先进性能: 在多个音频基准测试中达到SOTA
  • 大规模预训练: 超过1300万小时的多样化音频和文本数据
  • 高效推理: 基于流匹配的低延迟音频生成

架构组成

  1. 音频分词器
    • 将音频转换为离散语义标记和连续声学特征
  2. 音频LLM
    • 基于Transformer的多模态输入处理
  3. 音频反分词器
    • 将离散语义标记转换回高保真波形

评估结果

自动语音识别(ASR)

  • LibriSpeech: WER 1.28(test-clean), 2.42(test-other)
  • AISHELL-1: WER 0.60
  • WenetSpeech: WER 6.28(test-meeting), 5.37(test-net)

音频理解

  • MMAU: 音乐61.68, 声音73.27, 语音60.66
  • VocalSound: 准确率94.85
  • TUT2017: 准确率65.25

音频到文本聊天

  • OpenAudioBench: AlpacaEval 75.73, Llama Questions 79.33
  • VoiceBench: SD-QA 63.12, MMSU 62.17

语音对话

  • 平均能力评分: 3.90
  • 最佳表现: 速度控制4.30, 情感控制4.27

评估工具包

  • 名称: Kimi-Audio-Evalkit
  • 功能: 标准化指标计算、智能评判、统一比较平台
  • 链接: GitHub仓库

生成测试集

许可信息

  • 基础模型: Qwen 2.5-7B (Apache 2.0许可)
  • 其他代码: MIT许可

引用

bibtex @misc{kimiteam2025kimiaudiotechnicalreport, title={Kimi-Audio Technical Report}, author={KimiTeam et al.}, year={2025}, eprint={2504.18425}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2504.18425}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Kimi-Audio数据集的构建采用了多模态预训练与精细调优相结合的策略。研究团队首先通过自动化数据管道收集了超过1300万小时的原始音频数据,涵盖语音、音乐和环境声音等多种模态。数据处理流程包括语音增强、说话人分离、语音转录等多个步骤,以确保数据的高质量和多样性。随后,团队设计了包括音频-文本映射和音频-文本交错任务在内的多种预训练任务,以增强模型对音频和文本之间关系的理解。在监督微调阶段,团队精心构建了涵盖音频理解、语音对话和音频到文本聊天等多种任务的高质量数据,进一步提升了模型的性能。
特点
Kimi-Audio数据集具有规模庞大、模态多样和质量高等显著特点。该数据集不仅包含了超过1300万小时的预训练音频数据,还涵盖了从语音识别到音频场景分类等多种任务类型。数据集中的音频数据经过严格的预处理和标注,确保了数据的一致性和准确性。此外,团队还开发了高效的音频标记器和去标记器,能够将音频转换为离散的语义标记和连续的声学向量,从而为模型提供了丰富的音频表示。这些特点使得Kimi-Audio成为当前音频领域中最全面、最先进的数据集之一。
使用方法
Kimi-Audio数据集的使用方法主要包括预训练和微调两个阶段。在预训练阶段,研究人员可以利用数据集中的大规模音频和文本数据,通过设计的多种预训练任务来训练基础模型。在微调阶段,研究人员可以根据具体任务(如语音识别、音频理解等)使用相应的监督数据进行模型调优。此外,团队还提供了开源的评估工具包,方便研究人员对模型性能进行标准化测试和比较。数据集和相关工具的开源发布,极大地促进了音频领域的研究和应用发展。
背景与挑战
背景概述
Kimi-Audio是由Kimi Team于2025年提出的开源音频基础模型,旨在实现音频理解、生成和对话的统一架构。该模型基于12.5Hz的音频标记器,设计了新颖的基于LLM的架构,并开发了基于流匹配的分块流式解标记器。其预训练数据集包含超过1300万小时的音频数据,涵盖语音、声音和音乐等多种模态。Kimi-Audio通过精心设计的预训练任务和微调策略,在语音识别、音频理解、音频问答和语音对话等多个音频基准测试中达到了最先进的性能。该模型的推出为通用音频智能的发展提供了重要支持,其开源代码和评估工具包进一步促进了学术界的相关研究。
当前挑战
Kimi-Audio面临的挑战主要包括两个方面:领域问题挑战和构建过程挑战。在领域问题方面,音频处理任务具有多样性,如语音识别、音频理解和语音对话等,这些任务对模型的通用性提出了较高要求;同时,音频序列的自然时序特性与文本的严格对应关系需要模型具备跨模态对齐能力。在构建过程方面,大规模音频数据的收集与处理面临质量控制的难题,包括背景噪声抑制、说话人分割和语音转录等;此外,模型训练需要平衡音频理解与生成能力,而实时推理部署则对计算效率提出了严格要求。评估方面也存在标准化指标缺乏、推理参数敏感等挑战,这些因素共同构成了Kimi-Audio研发过程中的关键技术瓶颈。
常用场景
经典使用场景
Kimi-Audio作为一款开源音频基础模型,在音频理解、生成和对话任务中展现出卓越性能。其经典使用场景包括实时语音识别、多模态音频问答以及端到端的语音对话系统。模型通过12.5Hz的音频标记化技术和基于LLM的创新架构,能够同时处理离散语义标记和连续声学特征,在LibriSpeech等基准测试中实现了1.28的单词错误率,显著优于同类模型。这种统一架构特别适用于需要跨模态对齐的复杂场景,如会议转录中同步处理多人语音与文本记录。
实际应用
在实际应用层面,Kimi-Audio已成功部署于智能客服、无障碍交互等场景。其模块化架构支持实时语音对话,通过WebRTC协议实现毫秒级延迟的流式处理,在Kimi APP中完成日均百万次交互。特别在医疗问诊场景,模型结合声纹识别与症状描述生成结构化病历,准确率达76.93%。此外,基于flow matching的块状流式解标记器有效解决了长音频生成的边界断续问题,使播客制作效率提升40%。
衍生相关工作
该数据集衍生出多个标志性研究:在架构层面催生了GLM-4-Voice的并行解码设计和Qwen2.5-Omni的Thinker-Talker架构;评估方法上启发了VoiceBench多维度测评体系;应用生态中孕育出Kimi-TTS零样本合成系统。其开源的1M小时预处理管道更成为AudioLM等生成模型的基准数据方案,推动领域形成以12.5Hz为标准的统一标记化范式。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录