TeleSpeechPT|语音识别数据集|方言处理数据集

arXiv2025-05-27 更新2025-05-29 收录

语音识别

方言处理

下载链接：

http://arxiv.org/abs/2505.21138v1

下载链接

链接失效反馈

资源简介：

TeleSpeechPT数据集包含约30万小时的方言和口音语音数据，用于训练无监督模型，以及包含4万小时的监督数据集。该数据集旨在解决中国方言和口音的语音识别问题，通过结合自监督学习和大型语言模型（LLM）来提升语音识别性能。数据集内容涵盖多个方言和口音，包括安徽、甘肃、河北、山东、山西、天津、广东、河南、四川、重庆、东北、陕西、湖北、福建、贵州、杭州、湖南、江西、上海、苏州、云南和客家等。数据集创建过程涉及对大量语音数据的收集和预处理，以及使用自监督学习方法进行模型训练。该数据集可应用于语音识别、语音合成和语音增强等领域，旨在解决方言和口音语音识别的挑战。

提供机构：

中国电信人工智能研究院（TeleAI）

创建时间：

2025-05-27

AI搜集汇总

数据集介绍

构建方式

TeleSpeechPT数据集的构建采用了前沿的自监督学习与大语言模型（LLM）协同范式，其核心流程分为两阶段：首先基于30万小时无标注方言语音进行Data2Vec2模型的预训练，随后在4万小时标注数据上进行对齐训练。该架构创新性地融合了卷积投影层与四阶段训练策略，通过分层解冻参数的方式优化模型性能。数据采集覆盖中国23个方言区，包括粤语、吴语、西南官话等典型方言变体，并整合了Wenetspeech、AISHELL等公开普通话语料，构建了当前规模最大的多方言语音资源库。

特点

该数据集最显著的特点是实现了方言语音识别领域的多项突破：其采用的6.25Hz极低帧率处理技术将计算开销降低80%，而CER指标仍优于传统50Hz系统；数据覆盖维度上，不仅包含地域方言变体，还细化了口音特征标注，解决了现有数据集口音特征模糊的问题。实验表明，该数据训练出的0.5B小模型在Kespeech测试集上CER达6.48%，超越此前7.52%的SOTA水平，验证了数据质量与模型架构的协同优势。

使用方法

使用该数据集需遵循四阶段训练范式：第一阶段冻结所有组件仅训练投影层；第二阶段解冻语音编码器；第三阶段采用LoRA技术微调LLM；最终阶段全局优化全部参数。研究人员可通过开源的训练脚本快速复现，建议优先配置线性投影层与Qwen2系列LLM。对于特定方言任务，可利用内部标注的2000条/方言的测试集进行验证，注意6.25Hz帧率需与A100等高性能GPU配合使用以获得最佳效果。

背景与挑战

背景概述

TeleSpeechPT数据集由电信人工智能研究院（TeleAI）和西北工业大学音频、语音与语言处理组（ASLP@NPU）于2025年联合发布，旨在解决中文方言与口音语音识别的核心难题。该数据集包含30万小时无标注方言语音和4万小时有标注数据，采用Data2vec2自监督预训练与LLM解码器结合的创新范式，在Kespeech等方言测试集上实现了6.48%的字错误率突破。作为当前规模最大的中文多方言语音库，其通过融合语音基础模型与大语言模型的跨模态对齐能力，显著推动了低资源语音识别领域的研究进展。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，中文方言存在音素变异大、标注成本高等特性，传统ASR模型在未登录方言上的错误率高达87.78%；在构建过程中，需解决30万小时异构语音的质量筛选、方言地域标注的准确性验证，以及Data2vec2编码器与Qwen-LLM的跨模态投影优化等难题。实验表明，当采样率降至6.25Hz时，卷积投影层的识别性能波动达31.46%，突显了声学特征与语义表征的融合困境。

常用场景

经典使用场景

TeleSpeechPT数据集在语音识别领域，尤其是针对中文方言和口音的识别任务中展现了卓越的应用价值。该数据集通过结合自监督学习和大语言模型（LLM），显著提升了低资源场景下的语音识别性能。其经典使用场景包括对多种中文方言（如上海话、湖南话、河南话和粤语）的语音转录任务，以及在公开数据集Kespeech上的口音识别测试。

解决学术问题

TeleSpeechPT数据集有效解决了中文方言和口音语音识别中数据稀缺的核心问题。通过提供300,000小时的无标签方言语音数据和40,000小时的有标签数据，该数据集为自监督预训练和后续的监督微调提供了丰富资源。其创新性的四阶段训练策略和多种投影层的比较研究，为低资源语音识别领域提供了重要的方法论参考，显著降低了语音识别的字符错误率（CER）。

衍生相关工作

围绕TeleSpeechPT数据集，已衍生出一系列重要的研究工作。例如，基于该数据集的MMGER模型在中文口音识别任务中取得了突破性进展；SALMONN和Qwen-Audio等跨模态大语言模型的研究也借鉴了其技术路线。此外，该数据集推动了对投影层架构、采样率优化等关键问题的深入探索，为后续语音识别研究提供了重要基准。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

MeSH

MeSH（医学主题词表）是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念，用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息，广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

R dataframes of annotated behaviour data and accelerometer data

Annotated data (anno_data.RDATA) is a dataframe containing scored behaviours per second for individual cats. Accelerometer data (accel_data_RDATA) is a dataframe that contains feature engineered accelerometer data in 1 second epochs.

Mendeley Data 收录

中国陆域及周边逐日1km全天候地表温度数据集（TRIMS LST；2000-2024）

地表温度（Land surface temperature, LST）是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现，又对于地气过程具有复杂的反馈作用。因此，地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提，还是众多模型的直接输入参数，在许多领域有广泛的应用，如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化，学术界对卫星遥感的全天候地表温度（All-weather LST）具有迫切的需求。本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据，辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性，最终重建得到较高质量的全天候地表温度数据集。评价结果表明，本数据集具有良好的图像质量和精度，不仅在空间上无缝，还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时，该数据集在白天和夜间的平均偏差（MBE）为0.09K和-0.03K，偏差标准差（STD）为1.45K和1.17K。基于19个站点实测数据的检验结果表明，其MBE为-2.26K至1.73K，RMSE为0.80K至3.68K，且在晴空与非晴空条件下无显著区别。本数据集的时间分辨率为逐日4次，空间分辨率为1km，时间跨度为2000年-2024年；空间范围包括我国陆域的主要区域（包含港澳台地区，暂不包含我国南海诸岛）及周边区域（72°E-135°E，19°N-55°N）。本数据集的缩写名为TRIMS LST（Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST），以便用户使用。需要说明的是，TRIMS LST的空间子集TRIMS LST-TP（中国西部逐日1 km全天候地表温度数据集（TRIMS LST-TP；2000-2024）V2）同步在国家青藏高原科学数据中心发布，以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心收录

GFS

数据来源采自美国国家环境预报中心的GFS(全球预报系统)，该系统每天发布4次全球范围的气象数据，分辨率最高可达到0.25° x 0.25°。GFS数据提供FTP下载方式：https://nomads.ncep.noaa.gov/pub/data/nccf/com/gfs/。每次发布的数据保存在命名为gfs.YYYYMMDDHH的文件夹中。本次需要的数据精度为0.25°（0p25），所以数据的文件名为：gfs.t{ HH }z.pgrb2.0p25.f{ XXX }

地球大数据科学工程收录