five

Speaker Diarization

收藏
RapidAPI2025-08-17 更新2025-03-29 收录
下载链接:
https://rapidapi.com/novotnod/api/speaker-diarization1
下载链接
链接失效反馈
官方服务:
资源简介:
Accurately detect and segment multiple speakers in audio files using deep learning. This API provides fast and reliable speaker diarization for multi-speaker recordings, making it ideal for call analysis, podcast editing, interviews, and other voice-based applications.
创建时间:
2025-08-17
原始信息汇总

Speaker Diarization API 概述

基本信息

  • API名称:Speaker Diarization
  • 类别:Artificial Intelligence/Machine Learning
  • 流行度:9.1
  • 服务等级:87%
  • 延迟:6151ms
  • 测试通过率:99%

定价计划

  • BASIC:$0.00 / 月
  • PRO:$9.99 / 月
  • ULTRA:$29.99 / 月
  • MEGA:$69.99 / 月

主要功能

执行说话人分离,确定音频文件中“谁在何时说话”,无需预先知道说话人数量。

适用场景

  • 会议分析
  • 访谈
  • 播客
  • 电话通话

端点详情

POST /diarization

  • 描述:对音频文件执行说话人分离
  • 请求类型:multipart/form-data

请求参数

参数 类型 必需 描述
audio_file File 要分析的音频文件,最大文件大小:50 MB

支持的音频格式

  • WAV
  • MP3
  • OGG

响应格式

示例响应(JSON格式)

json { "segments": [ { "start": 1.8, "end": 2.38, "speaker": "SPEAKER_03" } ], "duration": 27.33, "speakers": 4 }

响应字段说明

  • segments:检测到的说话人片段列表,包含开始/结束时间(秒)和分配的说话人ID
  • duration:音频文件总长度(秒)
  • speakers:检测到的唯一说话人数量

语言支持

说话人分离是语言无关的,不需要指定语言。

错误处理

错误响应示例

json { "error": "Unsupported file format. Only MP3, WAV, and OGG are allowed." }

HTTP状态码

HTTP代码 含义 描述
200 OK 成功处理音频并返回说话人片段
400 Bad Request 无效的文件格式、缺少文件或损坏的音频数据
403 Forbidden 未授权的请求,检查API密钥
500 Internal Error 说话人分离处理期间发生内部错误

速率限制

API有速率限制,请查看RapidAPI计划了解使用配额。

数据隐私

  • 所有数据仅用于特定任务处理
  • 处理完成后立即删除所有数据
  • 数据传输加密
  • 服务器位于捷克共和国

提供商信息

  • API创建者:Ondr4N
  • 订阅者数量:8
  • 类别:Artificial Intelligence/Machine Learning
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集提供基于深度学习的多说话人音频快速分割服务,适用于通话分析、播客编辑及访谈等语音应用场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作