干音音频数据集
收藏贵州省数据知识产权登记平台2026-04-08 更新2026-04-09 收录
下载链接:
https://gzdipp.gzsis.cn:12020/noticeDetail?id=2545&type=1
下载链接
链接失效反馈官方服务:
资源简介:
数据处理遵循严格的质量管控规则,采集合规实拍干音,剔除杂音、低质、违规音频,确保音频来源合法、质量达标;采用音频切分算法,根据说话内容逻辑、语句停顿等特征将音频切分为若干片段,运用时间戳标注算法实现毫秒级时序对齐,结合说话人识别规则标注不同说话人信息,最终生成Srt格式标注文件;该数据集未涉及个人隐私数据、公共数据,无需进行匿名化、去标识化处理,数据处理活动符合相关法律法规要求。
提供机构:
中文在线集团股份有限公司
创建时间:
2026-04-01
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个由中文在线集团股份有限公司自行产生的干音音频集合,总规模达13022小时,适用于语音识别、AI配音和有声音内容制作等场景。它采用严格的质量管控和音频处理算法,包括音频切分、时间戳标注和说话人识别,生成Srt格式标注文件,确保数据合法合规且不涉及个人隐私。
以上内容由遇见数据集搜集并总结生成



