five

mesolitica/pseudostreaming-malaya-speech-stt

收藏
Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mesolitica/pseudostreaming-malaya-speech-stt
下载链接
链接失效反馈
官方服务:
资源简介:
Pseudostreaming Malaya-Speech STT数据集是一个用于自动语音识别任务的马来语数据集。该数据集是通过使用Hugging Face上的一个模型生成的,总时长为8667.802379812754小时。数据集包含音频文件名、原始音频文件名、文本内容以及时间戳信息,格式为JSONL。数据集的使用方法包括下载和解压数据集的命令行操作。

Pseudostreaming Malaya-Speech STT数据集是一个用于自动语音识别任务的马来语数据集。该数据集是通过使用Hugging Face上的一个模型生成的,总时长为8667.802379812754小时。数据集包含音频文件名、原始音频文件名、文本内容以及时间戳信息,格式为JSONL。数据集的使用方法包括下载和解压数据集的命令行操作。
提供机构:
mesolitica
原始信息汇总

Pseudostreaming Malaya-Speech STT 数据集

概述

  • 许可证:MIT
  • 任务类别:自动语音识别
  • 语言:马来语

数据集详情

  • 总时长:8667.802379812754小时
  • 数据格式:JSON Lines格式,存储在processed.jsonl文件中

数据示例

json [ { "text": "pernahkah", "start": 0.2802439024390244, "end": 0.9005226480836237, "audio_filename": "processed-audio/0-321061-0.mp3", "original_audio_filename": "output-audio/0-10033-5.mp3" }, { "text": "pernahkah anda", "start": 0.2802439024390244, "end": 1.1407317073170733, "audio_filename": "processed-audio/0-321061-1.mp3", "original_audio_filename": "output-audio/0-10033-5.mp3" }, { "text": "pernahkah anda mengalami situasi di mana subjek terkeluar daripada bingkai gambar", "start": 0.2802439024390244, "end": 4.863972125435541, "audio_filename": "processed-audio/0-321061-25.mp3", "original_audio_filename": "output-audio/0-10033-5.mp3" } ]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作