声云大规模多语种语料资源数据集
收藏安徽数据交易所2026-05-30 更新2026-05-31 收录
下载链接:
https://www.ahdexc.com/factorMarket
下载链接
链接失效反馈官方服务:
资源简介:
本数据集是一款大规模、高质量的多语种语音数据集,由多个子集构成,覆盖越南语、日语等语种,是国内稀缺的大规模多语种语音语料库。该数据集采用“标注数据+无监督数据”双轨结构,兼顾有监督训练与大模型预训练需求,数据形态完整、技术兼容性强,主要用于ASR(语音识别)大模型训练和预训练,训练后的模型可广泛应用于AI智能硬件语音能力部署及多语种语音服务等场景。
提供机构:
安徽声云智能科技有限公司
创建时间:
2026-05-30
搜集汇总
数据集介绍

背景与挑战
背景概述
声云大规模多语种语料资源数据集是一个涵盖多种语言的语音或文本语料资源,旨在支持多语种自然语言处理、语音识别等相关研究和应用。该数据集由安徽省数据交易所提供,具有大规模语料的特点,适用于语言模型训练和跨语言任务开发。
以上内容由遇见数据集搜集并总结生成



