five

TeleSpeechPT|语音识别数据集|方言处理数据集

收藏
arXiv2025-05-27 更新2025-05-29 收录
语音识别
方言处理
下载链接:
http://arxiv.org/abs/2505.21138v1
下载链接
链接失效反馈
资源简介:
TeleSpeechPT数据集包含约30万小时的方言和口音语音数据,用于训练无监督模型,以及包含4万小时的监督数据集。该数据集旨在解决中国方言和口音的语音识别问题,通过结合自监督学习和大型语言模型(LLM)来提升语音识别性能。数据集内容涵盖多个方言和口音,包括安徽、甘肃、河北、山东、山西、天津、广东、河南、四川、重庆、东北、陕西、湖北、福建、贵州、杭州、湖南、江西、上海、苏州、云南和客家等。数据集创建过程涉及对大量语音数据的收集和预处理,以及使用自监督学习方法进行模型训练。该数据集可应用于语音识别、语音合成和语音增强等领域,旨在解决方言和口音语音识别的挑战。
提供机构:
中国电信人工智能研究院(TeleAI)
创建时间:
2025-05-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
TeleSpeechPT数据集的构建采用了前沿的自监督学习与大语言模型(LLM)协同范式,其核心流程分为两阶段:首先基于30万小时无标注方言语音进行Data2Vec2模型的预训练,随后在4万小时标注数据上进行对齐训练。该架构创新性地融合了卷积投影层与四阶段训练策略,通过分层解冻参数的方式优化模型性能。数据采集覆盖中国23个方言区,包括粤语、吴语、西南官话等典型方言变体,并整合了Wenetspeech、AISHELL等公开普通话语料,构建了当前规模最大的多方言语音资源库。
特点
该数据集最显著的特点是实现了方言语音识别领域的多项突破:其采用的6.25Hz极低帧率处理技术将计算开销降低80%,而CER指标仍优于传统50Hz系统;数据覆盖维度上,不仅包含地域方言变体,还细化了口音特征标注,解决了现有数据集口音特征模糊的问题。实验表明,该数据训练出的0.5B小模型在Kespeech测试集上CER达6.48%,超越此前7.52%的SOTA水平,验证了数据质量与模型架构的协同优势。
使用方法
使用该数据集需遵循四阶段训练范式:第一阶段冻结所有组件仅训练投影层;第二阶段解冻语音编码器;第三阶段采用LoRA技术微调LLM;最终阶段全局优化全部参数。研究人员可通过开源的训练脚本快速复现,建议优先配置线性投影层与Qwen2系列LLM。对于特定方言任务,可利用内部标注的2000条/方言的测试集进行验证,注意6.25Hz帧率需与A100等高性能GPU配合使用以获得最佳效果。
背景与挑战
背景概述
TeleSpeechPT数据集由电信人工智能研究院(TeleAI)和西北工业大学音频、语音与语言处理组(ASLP@NPU)于2025年联合发布,旨在解决中文方言与口音语音识别的核心难题。该数据集包含30万小时无标注方言语音和4万小时有标注数据,采用Data2vec2自监督预训练与LLM解码器结合的创新范式,在Kespeech等方言测试集上实现了6.48%的字错误率突破。作为当前规模最大的中文多方言语音库,其通过融合语音基础模型与大语言模型的跨模态对齐能力,显著推动了低资源语音识别领域的研究进展。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,中文方言存在音素变异大、标注成本高等特性,传统ASR模型在未登录方言上的错误率高达87.78%;在构建过程中,需解决30万小时异构语音的质量筛选、方言地域标注的准确性验证,以及Data2vec2编码器与Qwen-LLM的跨模态投影优化等难题。实验表明,当采样率降至6.25Hz时,卷积投影层的识别性能波动达31.46%,突显了声学特征与语义表征的融合困境。
常用场景
经典使用场景
TeleSpeechPT数据集在语音识别领域,尤其是针对中文方言和口音的识别任务中展现了卓越的应用价值。该数据集通过结合自监督学习和大语言模型(LLM),显著提升了低资源场景下的语音识别性能。其经典使用场景包括对多种中文方言(如上海话、湖南话、河南话和粤语)的语音转录任务,以及在公开数据集Kespeech上的口音识别测试。
解决学术问题
TeleSpeechPT数据集有效解决了中文方言和口音语音识别中数据稀缺的核心问题。通过提供300,000小时的无标签方言语音数据和40,000小时的有标签数据,该数据集为自监督预训练和后续的监督微调提供了丰富资源。其创新性的四阶段训练策略和多种投影层的比较研究,为低资源语音识别领域提供了重要的方法论参考,显著降低了语音识别的字符错误率(CER)。
衍生相关工作
围绕TeleSpeechPT数据集,已衍生出一系列重要的研究工作。例如,基于该数据集的MMGER模型在中文口音识别任务中取得了突破性进展;SALMONN和Qwen-Audio等跨模态大语言模型的研究也借鉴了其技术路线。此外,该数据集推动了对投影层架构、采样率优化等关键问题的深入探索,为后续语音识别研究提供了重要基准。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

BANTH

BANTH数据集是由Penta Global Limited和Islamic University of Technology合作创建的,专门用于检测和分类转写孟加拉语中的仇恨言论。该数据集包含37,350条样本,主要来源于YouTube评论,涵盖新闻与政治、人物与博客、娱乐等多个类别。数据集的创建过程包括数据抓取、过滤、清洗和多轮人工标注与验证,确保了数据的高质量和准确性。BANTH数据集的应用领域主要集中在多标签仇恨言论检测,旨在解决低资源语言中仇恨言论自动检测的挑战,并为未来的跨语言和多标签分类研究奠定基础。

arXiv 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录