声音转文本模型训练数据

Name: 声音转文本模型训练数据
Creator: 杭州秋果计划科技有限公司
Published: 2025-09-01 11:12:57
License: 暂无描述

浙江省数据知识产权登记平台2025-09-01 更新2025-09-06 收录

下载链接：

https://www.zjip.org.cn/home/announce/trends/173186

下载链接

链接失效反馈

官方服务：

资源简介：

该训练数据为从声音自动获取的训练样本，用于声音转文本模型(下称ASR模型)的训练和优化。本训练数据通过多种开源ASR模型对原始音频数据进行识别处理后，进行联合投票优化，样本质量更高，有助于提高ASR模型的鲁棒性和泛化能力。训练好的ASR模型能应用到智能终端和智能家居等物联网设备中，将用户的声音转化为文本指令，方便人们的工作和生活。(1) 数据收集：秋果计划自有产品Wigain智能眼镜的实时对话、测试中收集的音频数据格式为wav文件。 (2) 数据清洗处理：从音频文件保存路径audio_path中获取音频数据；使用qwen大模型的ASR模型得到一语音识别结果text_qwen；使用paddle深度学习平台的ASR模型得到另一语音识别结果text_paddle；使用whisper_turbo语音识别服务的ASR模型得到的再一语音识别结果text_whisper_turbo；使用paraformer识别模型的的ASR模型得到又一语音识别结果text_paraformer；对以上4个语音识别结果进行片段投票得到投票得到融合的投票结果text_vote，比较出不同之处diff_spans并在text_vote上进行高亮标识；计算4个语音识别结果的一致率correct_char_ratio。下面对diff_spans和correct_char_ratio涉及的规则进行解释说明，以样例数据为例，投票算法首先从4个结果出选出与其余3个重合度最高的一个，即“播放蜘蛛侠”，由这个结果与其他3个结果进行片段对比，片段“播放”、“蜘蛛侠”2个片段在其他结果中都能找到匹配的片段，则说明该结果的全部字符都能得到验证，因此一致率为1。再以其它数据为例，“Run bot.”、“ron bought”、“run but”、“run barth”投票得到“run bot.” (t.标红高亮)，比较出不同之处diff_spans=[{"diff_span": [6, 8], "gt": null, "common_span_strs": null}]，计算出一致率correct_char_ratio=0.75。过程为首先找到了“Run bot.”，再与其他3个结果对比，片段“Run bo”可由第3和第4个结果得到验证，片段“n bo”可由第二个结果得到验证，而片段“t.”无法验证，因此一致率为6/8=0.75。 (3) 模型训练将清洗处理好的数据用于ASR模型的训练与优化。训练过程中，将一致率大于0.9的数据作为正向训练样本，将一致率小于0.96的舍去。 (4) 模型输出将获取到的音频输入到训练好的ASR模型中，识别音频中的文本数据。

提供机构：

杭州秋果计划科技有限公司

创建时间：

2025-06-11

搜集汇总

数据集介绍