Speech-to-Text AI
收藏RapidAPI2026-05-23 更新2025-02-15 收录
下载链接:
https://rapidapi.com/dataverse-dataverse-default/api/speech-to-text-ai
下载链接
链接失效反馈官方服务:
资源简介:
OpenAI Whisper real-time speech recognition for audio/video files and YouTube videos. Supports mp3, mp4, mpeg, mpga, m4a, wav and webm. Converts audio to text with support for multiple languages, ensuring precision and reliability.
OpenAI Whisper 可针对音频/视频文件及YouTube视频提供实时语音识别服务,支持mp3、mp4、mpeg、mpga、m4a、wav与webm多种格式,能够将音频转换为文本,支持多语言识别,且可保障识别精度与可靠性。
创建时间:
2026-05-23
原始信息汇总
基于您提供的页面内容,以下是该数据集的详情概述:
数据集/API 详情:Speech-to-Text AI
基本信息
- 名称:Speech-to-Text AI
- 类别:人工智能/机器学习
- 提供商:Dataverse
- 订阅用户数:1509
- 评分与表现:
- 受欢迎程度:9.7
- 服务等级:98%
- 延迟:25243ms
- 测试成功率:100%
核心功能
- 技术基础:基于 OpenAI Whisper 模型的实时语音识别。
- 主要用途:将音频或视频文件(包括 YouTube 视频)中的语音转换为文本。
- 支持的语言:支持多种语言,确保高精度和可靠性。
支持的输入格式
- 音频/视频格式:mp3、mp4、mpeg、mpga、m4a、wav、webm。
外部平台支持
- 支持直接从外部平台处理内容,包括:YouTube、TikTok、Instagram、Facebook、X (Twitter)、Vimeo、LinkedIn。
关键特性
- 实时转录:提供实时将语音转换为文本的能力,适用于直播字幕、交互式语音响应等场景。
- 广泛格式兼容性:支持多种音视频格式,无需用户预先转换文件。
- 多语言支持:支持多种语言转录,服务于全球用户和跨语言场景。
- 可扩展性与性能:能够高效处理从单个录音到大量音频数据的各种工作负载。
计费模式
- 收费标准:按 GPU 单元计费,而非请求时长。GPU 单元价格为 $0.0015/单元。
- 定价计划:
- BASIC:$0.00/月
- PRO:$10.00/月
- ULTRA:$50.00/月
- MEGA:$100.00/月
- 价格示例(基于音频时长):
音频时长 GPU 单元数 预估价格 1 分钟 3 $0.0045 5 分钟 5 $0.0075 10 分钟 7 $0.0105 15 分钟 7 $0.0105 30 分钟 13 $0.0195 45 分钟 17 $0.0255 1 小时 19 $0.0285 1.5 小时 23 $0.0345 2 小时 37 $0.0555 注:实际 GPU 单元消耗由请求决定,可能有所变化。



