Kimi-Audio|音频处理数据集|语音识别数据集
收藏Kimi-Audio数据集概述
基本信息
- 模型名称: Kimi-Audio
- 类型: 开源音频基础模型
- 主要功能: 音频理解、生成和对话
- 发布机构: MoonshotAI
- 技术报告: Kimi-Audio Technical Report
模型版本
- Kimi-Audio-7B: HuggingFace链接
- Kimi-Audio-7B-Instruct: HuggingFace链接
关键特性
- 通用能力: 支持语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)等多种任务
- 先进性能: 在多个音频基准测试中达到SOTA
- 大规模预训练: 超过1300万小时的多样化音频和文本数据
- 高效推理: 基于流匹配的低延迟音频生成
架构组成
- 音频分词器
- 将音频转换为离散语义标记和连续声学特征
- 音频LLM
- 基于Transformer的多模态输入处理
- 音频反分词器
- 将离散语义标记转换回高保真波形
评估结果
自动语音识别(ASR)
- LibriSpeech: WER 1.28(test-clean), 2.42(test-other)
- AISHELL-1: WER 0.60
- WenetSpeech: WER 6.28(test-meeting), 5.37(test-net)
音频理解
- MMAU: 音乐61.68, 声音73.27, 语音60.66
- VocalSound: 准确率94.85
- TUT2017: 准确率65.25
音频到文本聊天
- OpenAudioBench: AlpacaEval 75.73, Llama Questions 79.33
- VoiceBench: SD-QA 63.12, MMSU 62.17
语音对话
- 平均能力评分: 3.90
- 最佳表现: 速度控制4.30, 情感控制4.27
评估工具包
- 名称: Kimi-Audio-Evalkit
- 功能: 标准化指标计算、智能评判、统一比较平台
- 链接: GitHub仓库
生成测试集
- 名称: Kimi-Audio-Generation-Testset
- 语言: 中文
- 链接: HuggingFace数据集
许可信息
- 基础模型: Qwen 2.5-7B (Apache 2.0许可)
- 其他代码: MIT许可
引用
bibtex @misc{kimiteam2025kimiaudiotechnicalreport, title={Kimi-Audio Technical Report}, author={KimiTeam et al.}, year={2025}, eprint={2504.18425}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2504.18425}, }

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录