Speech-to-Text AI

RapidAPI2026-05-23 更新2025-02-15 收录

下载链接：

https://rapidapi.com/dataverse-dataverse-default/api/speech-to-text-ai

下载链接

链接失效反馈

官方服务：

资源简介：

OpenAI Whisper real-time speech recognition for audio/video files and YouTube videos. Supports mp3, mp4, mpeg, mpga, m4a, wav and webm. Converts audio to text with support for multiple languages, ensuring precision and reliability.

OpenAI Whisper 可针对音频/视频文件及YouTube视频提供实时语音识别服务，支持mp3、mp4、mpeg、mpga、m4a、wav与webm多种格式，能够将音频转换为文本，支持多语言识别，且可保障识别精度与可靠性。

创建时间：

2026-05-23

原始信息汇总

基于您提供的页面内容，以下是该数据集的详情概述：

数据集/API 详情：Speech-to-Text AI

基本信息

名称：Speech-to-Text AI
类别：人工智能/机器学习
提供商：Dataverse
订阅用户数：1509
评分与表现：
- 受欢迎程度：9.7
- 服务等级：98%
- 延迟：25243ms
- 测试成功率：100%

核心功能

技术基础：基于 OpenAI Whisper 模型的实时语音识别。
主要用途：将音频或视频文件（包括 YouTube 视频）中的语音转换为文本。
支持的语言：支持多种语言，确保高精度和可靠性。

支持的输入格式

音频/视频格式：mp3、mp4、mpeg、mpga、m4a、wav、webm。

外部平台支持

支持直接从外部平台处理内容，包括：YouTube、TikTok、Instagram、Facebook、X (Twitter)、Vimeo、LinkedIn。

关键特性

实时转录：提供实时将语音转换为文本的能力，适用于直播字幕、交互式语音响应等场景。
广泛格式兼容性：支持多种音视频格式，无需用户预先转换文件。
多语言支持：支持多种语言转录，服务于全球用户和跨语言场景。
可扩展性与性能：能够高效处理从单个录音到大量音频数据的各种工作负载。

计费模式

收费标准：按 GPU 单元计费，而非请求时长。GPU 单元价格为 $0.0015/单元。
定价计划：
- BASIC：$0.00/月
- PRO：$10.00/月
- ULTRA：$50.00/月
- MEGA：$100.00/月

价格示例（基于音频时长）：

音频时长	GPU 单元数	预估价格
1 分钟	3	$0.0045
5 分钟	5	$0.0075
10 分钟	7	$0.0105
15 分钟	7	$0.0105
30 分钟	13	$0.0195
45 分钟	17	$0.0255
1 小时	19	$0.0285
1.5 小时	23	$0.0345
2 小时	37	$0.0555
注：实际 GPU 单元消耗由请求决定，可能有所变化。

5,000+

优质数据集

54 个

任务类型

进入经典数据集