five

Multilingual Single Speaker Speech Dataset

收藏
Snowflake2026-03-24 更新2026-03-27 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZTHZCDT22
下载链接
链接失效反馈
官方服务:
资源简介:
This Multilingual Single Speaker Speech Dataset consists of high-quality audio recordings in multiple languages, including English, Chinese, Arabic, and more. The dataset is composed of short utterances, typically ranging from 5 to 10 seconds, covering everyday conversational scenarios and natural speech patterns. It is designed to support the development and evaluation of speech recognition (STT), text-to-speech (TTS), and other voice AI applications across diverse linguistic contexts.
提供机构:
Flitto
创建时间:
2026-03-23
原始信息汇总

Multilingual Single Speaker Speech Dataset

数据集概述

  • 数据集名称: Multilingual Single Speaker Speech Dataset
  • 提供商: Flitto
  • 获取方式: 免费试用
  • 试用期: 7天

数据集描述

该数据集包含高质量的多语言单说话人语音录音,涵盖英语、中文、阿拉伯语等多种语言。数据集由短话语组成,时长通常在5到10秒之间,覆盖日常对话场景和自然语音模式。该数据集旨在支持跨不同语言环境的语音识别(STT)、文本转语音(TTS)及其他语音AI应用的开发和评估。

业务需求

机器学习

  • 训练和改进多语言语音识别(STT)模型
  • 开发自然的文本转语音(TTS)和语音克隆系统
  • 构建语音驱动的聊天机器人和虚拟助手
  • 自动化呼叫中心和客户支持交互
  • 增强语音分析,包括情感和意图分析
  • 跨语言的语音AI模型基准测试和评估

数据字典

表名: SINGLE_TURN_SPEECH

列信息

  1. SINGLE_TURN_SPEECH_SEQ: Varchar
  2. origin_dataset_id: Varchar
  3. source_id: Varchar
  4. audio_url: Number
  5. durations: Varchar
  6. transcript: Varchar
  7. domain: Variant
  8. source_row_json: Timestamp_TZ
  9. created_at: Number
  10. SINGLE_TURN_SPEECH_SPEAKER_SEQ: Number
  11. SINGLE_TURN_SPEECH_KEYWORD_SEQ: Number
  12. SINGLE_TURN_SPEECH_METRICS_SEQ: Number
  13. SINGLE_TURN_SPEECH_DIALECT_SEQ: Number
  14. SINGLE_TURN_SPEECH_NORMALIZE_SEQ: Variant
  15. lang_code: Variant
  16. sample_url: Variant

数据预览示例

  • audio_url: https://flittoml-data-lake.s3.ap-northeast-2.amazonaws.com/snowflake/sample/audio_00003/7c774780-78fe-4a2d-82dd-8e034bee315b.wav
  • created_at: 2026-03-16 17:27:50.297 +0900
  • sample_url: https://flittoml-data-lake.s3.ap-northeast-2.amazonaws.com/snowflake/sample/audio_00003/7c774780-78fe-4a2d-82dd-8e034bee315b.wav

使用示例

预览数据集中的样本数据

sql SELECT "origin_dataset_id", "domain", "source_id", "lang_code", "sample_url", "transcript", "durations", "source_row_json" AS json FROM SINGLE_TURN_SPEECH.SINGLE_TURN_SPEECH;

技术详情

  • 数据刷新: 静态数据产品
  • 云区域可用性 (AWS):
    • Africa (Cape Town)
    • Asia Pacific (Jakarta)
    • Asia Pacific (Mumbai)
    • Asia Pacific (Osaka)
    • 49 More

法律条款

  • 条款类型: 标准

提供商信息

  • 提供商名称: Flitto
  • 销售联系: sales@flitto.com
  • 支持链接: https://datalab.flitto.com
  • 提供商描述: Flitto是一家全球语言技术公司,提供支持文本、音频、图像和视频翻译的多语言翻译平台。除了众包翻译,Flitto还提供AI驱动的翻译服务、专业语言解决方案以及用于AI训练、本地化和企业多语言应用的高质量语言数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作