five

出门问问关键词数据转写文本

收藏
魔搭社区2026-05-19 更新2025-11-15 收录
下载链接:
https://modelscope.cn/datasets/thuduj12/mobvoi_kws_transcription
下载链接
链接失效反馈
官方服务:
资源简介:
使用出门问问开源的关键词数据集(http://www.openslr.org/resources/87),利用达摩院paraformer-large模型(https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary)进行文本转写,其中关键词正例直接使用原始唤醒词,只对负例音频进行了文本转录。此数据集只包含了转录后的文本,以kaldi格式保存。

本数据集采用出门问问开源的关键词数据集(http://www.openslr.org/resources/87),借助达摩院paraformer-large模型(https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary)完成语音文本转写。其中关键词正例直接沿用原始唤醒词,仅对负例音频执行文本转录操作。本数据集仅包含转录后的文本内容,以Kaldi格式存储。
提供机构:
maas
创建时间:
2023-05-16
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集基于出门问问开源的关键词数据集,通过达摩院paraformer-large模型进行文本转写,其中关键词正例保留原始唤醒词,负例音频被转录为文本,最终仅包含转录文本并以kaldi格式保存。数据集采用Apache License 2.0许可证,更新于2025年11月13日,大小为51.05MB。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务