Speaker Diarization
收藏RapidAPI2025-08-17 更新2025-03-29 收录
下载链接:
https://rapidapi.com/novotnod/api/speaker-diarization1
下载链接
链接失效反馈官方服务:
资源简介:
Accurately detect and segment multiple speakers in audio files using deep learning. This API provides fast and reliable speaker diarization for multi-speaker recordings, making it ideal for call analysis, podcast editing, interviews, and other voice-based applications.
创建时间:
2025-08-17
原始信息汇总
Speaker Diarization API 概述
基本信息
- API名称:Speaker Diarization
- 类别:Artificial Intelligence/Machine Learning
- 流行度:9.1
- 服务等级:87%
- 延迟:6151ms
- 测试通过率:99%
定价计划
- BASIC:$0.00 / 月
- PRO:$9.99 / 月
- ULTRA:$29.99 / 月
- MEGA:$69.99 / 月
主要功能
执行说话人分离,确定音频文件中“谁在何时说话”,无需预先知道说话人数量。
适用场景
- 会议分析
- 访谈
- 播客
- 电话通话
端点详情
POST /diarization
- 描述:对音频文件执行说话人分离
- 请求类型:multipart/form-data
请求参数
| 参数 | 类型 | 必需 | 描述 |
|---|---|---|---|
| audio_file | File | 是 | 要分析的音频文件,最大文件大小:50 MB |
支持的音频格式
- WAV
- MP3
- OGG
响应格式
示例响应(JSON格式)
json { "segments": [ { "start": 1.8, "end": 2.38, "speaker": "SPEAKER_03" } ], "duration": 27.33, "speakers": 4 }
响应字段说明
segments:检测到的说话人片段列表,包含开始/结束时间(秒)和分配的说话人IDduration:音频文件总长度(秒)speakers:检测到的唯一说话人数量
语言支持
说话人分离是语言无关的,不需要指定语言。
错误处理
错误响应示例
json { "error": "Unsupported file format. Only MP3, WAV, and OGG are allowed." }
HTTP状态码
| HTTP代码 | 含义 | 描述 |
|---|---|---|
| 200 | OK | 成功处理音频并返回说话人片段 |
| 400 | Bad Request | 无效的文件格式、缺少文件或损坏的音频数据 |
| 403 | Forbidden | 未授权的请求,检查API密钥 |
| 500 | Internal Error | 说话人分离处理期间发生内部错误 |
速率限制
API有速率限制,请查看RapidAPI计划了解使用配额。
数据隐私
- 所有数据仅用于特定任务处理
- 处理完成后立即删除所有数据
- 数据传输加密
- 服务器位于捷克共和国
提供商信息
- API创建者:Ondr4N
- 订阅者数量:8
- 类别:Artificial Intelligence/Machine Learning
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集提供基于深度学习的多说话人音频快速分割服务,适用于通话分析、播客编辑及访谈等语音应用场景。
以上内容由遇见数据集搜集并总结生成



