mesolitica/pseudostreaming-malaya-speech-stt
收藏Hugging Face2024-02-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mesolitica/pseudostreaming-malaya-speech-stt
下载链接
链接失效反馈官方服务:
资源简介:
Pseudostreaming Malaya-Speech STT数据集是一个用于自动语音识别任务的马来语数据集。该数据集是通过使用Hugging Face上的一个模型生成的,总时长为8667.802379812754小时。数据集包含音频文件名、原始音频文件名、文本内容以及时间戳信息,格式为JSONL。数据集的使用方法包括下载和解压数据集的命令行操作。
Pseudostreaming Malaya-Speech STT数据集是一个用于自动语音识别任务的马来语数据集。该数据集是通过使用Hugging Face上的一个模型生成的,总时长为8667.802379812754小时。数据集包含音频文件名、原始音频文件名、文本内容以及时间戳信息,格式为JSONL。数据集的使用方法包括下载和解压数据集的命令行操作。
提供机构:
mesolitica
原始信息汇总
Pseudostreaming Malaya-Speech STT 数据集
概述
- 许可证:MIT
- 任务类别:自动语音识别
- 语言:马来语
数据集详情
- 总时长:8667.802379812754小时
- 数据格式:JSON Lines格式,存储在
processed.jsonl文件中
数据示例
json [ { "text": "pernahkah", "start": 0.2802439024390244, "end": 0.9005226480836237, "audio_filename": "processed-audio/0-321061-0.mp3", "original_audio_filename": "output-audio/0-10033-5.mp3" }, { "text": "pernahkah anda", "start": 0.2802439024390244, "end": 1.1407317073170733, "audio_filename": "processed-audio/0-321061-1.mp3", "original_audio_filename": "output-audio/0-10033-5.mp3" }, { "text": "pernahkah anda mengalami situasi di mana subjek terkeluar daripada bingkai gambar", "start": 0.2802439024390244, "end": 4.863972125435541, "audio_filename": "processed-audio/0-321061-25.mp3", "original_audio_filename": "output-audio/0-10033-5.mp3" } ]



