five

出版物有声书(小说有声书)数据集

收藏
贵州省数据知识产权登记平台2026-03-12 更新2026-03-13 收录
下载链接:
https://gzdipp.gzsis.cn:12020/noticeDetail?id=2397&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
数据规模与规格 总时长20 万小时,以有声书、有声小说为主,音频 + 文本逐段对齐,格式规范统一。 文本对齐规则 文本与音频内容高度一致、无错漏、无乱码,支持句级别 / 段级别对齐,适配序列建模。 清洗与质控规则 经过去噪、去静音、去重、去低质录音、去违规内容处理,音频清晰、文本准确。 算法适配 天然支持自监督语音预训练、ASR 端到端训练、TTS 建模、语音–文本跨模态对齐、对比学习等主流训练框架与算法。
提供机构:
中文在线集团股份有限公司
创建时间:
2026-03-03
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个大规模的有声书和有声小说集合,总时长20万小时,核心特点是音频与文本逐段对齐,格式规范统一,支持句级别和段级别对齐。经过严格的清洗与质控处理,包括去噪、去静音、去重等,确保音频清晰、文本准确,天然适配自监督语音预训练、ASR、TTS等多种主流语音算法和训练框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作