five

Speech-to-Text AI

收藏
RapidAPI2026-05-23 更新2025-02-15 收录
下载链接:
https://rapidapi.com/dataverse-dataverse-default/api/speech-to-text-ai
下载链接
链接失效反馈
官方服务:
资源简介:
OpenAI Whisper real-time speech recognition for audio/video files and YouTube videos. Supports mp3, mp4, mpeg, mpga, m4a, wav and webm. Converts audio to text with support for multiple languages, ensuring precision and reliability.

OpenAI Whisper 可针对音频/视频文件及YouTube视频提供实时语音识别服务,支持mp3、mp4、mpeg、mpga、m4a、wav与webm多种格式,能够将音频转换为文本,支持多语言识别,且可保障识别精度与可靠性。
创建时间:
2026-05-23
原始信息汇总

基于您提供的页面内容,以下是该数据集的详情概述:

数据集/API 详情:Speech-to-Text AI

基本信息

  • 名称:Speech-to-Text AI
  • 类别:人工智能/机器学习
  • 提供商:Dataverse
  • 订阅用户数:1509
  • 评分与表现
    • 受欢迎程度:9.7
    • 服务等级:98%
    • 延迟:25243ms
    • 测试成功率:100%

核心功能

  • 技术基础:基于 OpenAI Whisper 模型的实时语音识别。
  • 主要用途:将音频或视频文件(包括 YouTube 视频)中的语音转换为文本。
  • 支持的语言:支持多种语言,确保高精度和可靠性。

支持的输入格式

  • 音频/视频格式:mp3、mp4、mpeg、mpga、m4a、wav、webm。

外部平台支持

  • 支持直接从外部平台处理内容,包括:YouTube、TikTok、Instagram、Facebook、X (Twitter)、Vimeo、LinkedIn。

关键特性

  1. 实时转录:提供实时将语音转换为文本的能力,适用于直播字幕、交互式语音响应等场景。
  2. 广泛格式兼容性:支持多种音视频格式,无需用户预先转换文件。
  3. 多语言支持:支持多种语言转录,服务于全球用户和跨语言场景。
  4. 可扩展性与性能:能够高效处理从单个录音到大量音频数据的各种工作负载。

计费模式

  • 收费标准:按 GPU 单元计费,而非请求时长。GPU 单元价格为 $0.0015/单元
  • 定价计划
    • BASIC:$0.00/月
    • PRO:$10.00/月
    • ULTRA:$50.00/月
    • MEGA:$100.00/月
  • 价格示例(基于音频时长)
    音频时长 GPU 单元数 预估价格
    1 分钟 3 $0.0045
    5 分钟 5 $0.0075
    10 分钟 7 $0.0105
    15 分钟 7 $0.0105
    30 分钟 13 $0.0195
    45 分钟 17 $0.0255
    1 小时 19 $0.0285
    1.5 小时 23 $0.0345
    2 小时 37 $0.0555
    注:实际 GPU 单元消耗由请求决定,可能有所变化。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作