Speaker Diarization

RapidAPI2025-08-17 更新2025-03-29 收录

下载链接：

https://rapidapi.com/novotnod/api/speaker-diarization1

下载链接

链接失效反馈

官方服务：

资源简介：

Accurately detect and segment multiple speakers in audio files using deep learning. This API provides fast and reliable speaker diarization for multi-speaker recordings, making it ideal for call analysis, podcast editing, interviews, and other voice-based applications.

创建时间：

2025-08-17

原始信息汇总

Speaker Diarization API 概述

基本信息

API名称：Speaker Diarization
类别：Artificial Intelligence/Machine Learning
流行度：9.1
服务等级：87%
延迟：6151ms
测试通过率：99%

定价计划

BASIC：$0.00 / 月
PRO：$9.99 / 月
ULTRA：$29.99 / 月
MEGA：$69.99 / 月

主要功能

执行说话人分离，确定音频文件中“谁在何时说话”，无需预先知道说话人数量。

适用场景

会议分析
访谈
播客
电话通话

端点详情

POST /diarization

描述：对音频文件执行说话人分离
请求类型：multipart/form-data

请求参数

参数	类型	必需	描述
audio_file	File	是	要分析的音频文件，最大文件大小：50 MB

支持的音频格式

响应格式

示例响应（JSON格式）

json { "segments": [ { "start": 1.8, "end": 2.38, "speaker": "SPEAKER_03" } ], "duration": 27.33, "speakers": 4 }

响应字段说明

segments：检测到的说话人片段列表，包含开始/结束时间（秒）和分配的说话人ID
duration：音频文件总长度（秒）
speakers：检测到的唯一说话人数量

语言支持

说话人分离是语言无关的，不需要指定语言。

错误处理

错误响应示例

json { "error": "Unsupported file format. Only MP3, WAV, and OGG are allowed." }

HTTP状态码

HTTP代码	含义	描述
200	OK	成功处理音频并返回说话人片段
400	Bad Request	无效的文件格式、缺少文件或损坏的音频数据
403	Forbidden	未授权的请求，检查API密钥
500	Internal Error	说话人分离处理期间发生内部错误