TingChen-ppmc/Nanchang_Dialect_Conversational_Speech_Corpus
收藏Hugging Face2023-12-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TingChen-ppmc/Nanchang_Dialect_Conversational_Speech_Corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于Magicdata的ASR-CNANDIACSC,即南昌方言对话语音语料库。数据集中的音频根据转录文件中的时间跨度被分割成句子,且持续时间少于1秒的句子被丢弃。对话的主题已被移除。数据集包含音频、性别、说话者ID和转录文本等特征,并且只有训练集。数据集的使用方法包括加载数据集和分割出测试集。
该数据集来源于Magicdata的ASR-CNANDIACSC,即南昌方言对话语音语料库。数据集中的音频根据转录文件中的时间跨度被分割成句子,且持续时间少于1秒的句子被丢弃。对话的主题已被移除。数据集包含音频、性别、说话者ID和转录文本等特征,并且只有训练集。数据集的使用方法包括加载数据集和分割出测试集。
提供机构:
TingChen-ppmc
原始信息汇总
数据集概述
数据集信息
特征
- audio: 音频数据
- gender: 说话人性别
- speaker_id: 说话人ID
- transcription: 语音转录文本
数据分割
- train: 训练集,包含1668个样本,大小为151062019.576字节
数据集大小
- download_size: 154068613字节
- dataset_size: 151062019.576字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
数据集加载
加载数据集
python from datasets import load_dataset dialect_corpus = load_dataset("TingChen-ppmc/Nanchang_Dialect_Conversational_Speech_Corpus")
分割测试集
python from datasets import load_dataset train_split = load_dataset("TingChen-ppmc/Nanchang_Dialect_Conversational_Speech_Corpus", split="train")
其中test=0.5表示0.5的数据将被分割到测试集
corpus = train_split.train_test_split(test=0.5)
示例数据
python { audio: { path: A0001_S001_0_G0001_0.WAV, array: array([-0.00030518, -0.00039673, -0.00036621, ..., -0.00064087, -0.00015259, -0.00042725]), sampling_rate: 16000 }, gender: 女, speaker_id: G0001, transcription: 北京爱数智慧语音采集 }
搜集汇总
数据集介绍

构建方式
在方言语音资源日益受到重视的背景下,该数据集的构建源于对南昌方言口语对话的系统性采集。原始语料来源于MagicData平台发布的“ASR-CNANDIACSC: A CHINESE NANCHANG DIALECT CONVERSATIONAL SPEECH CORPUS”,经过细致的后处理流程:依据转录文件中的时间戳将连续对话切分为独立句子,并剔除了时长不足一秒的短句,同时移除了对话主题标签,从而形成了以句子为单位的纯净语音文本对。
特点
作为专注于南昌方言的对话语音资源,该数据集呈现出鲜明的方言语言学特征。其核心构成包含1668条训练样本,每条样本均整合了高质量音频、对应文本转录、说话人标识及性别信息,形成了多维度标注体系。音频采样率为16kHz,确保了语音信号的保真度;文本转录忠实记录方言发音,为语音识别与方言研究提供了精准对齐的语料。数据以单一训练分割形式发布,便于研究者根据需求灵活划分验证集与测试集。
使用方法
在方言语音计算研究领域,该数据集为模型训练与评估提供了直接支持。研究者可通过Hugging Face的datasets库便捷加载,使用load_dataset函数并指定数据集路径即可获取全部语料。鉴于数据集初始仅包含训练分割,用户可借助train_test_split方法按比例划分出测试集,以适应不同的实验设计。数据样本以字典结构呈现,整合了音频路径、波形数组、采样率、性别、说话人ID及文本转录,便于直接输入至语音识别或说话人识别模型进行端到端处理。
背景与挑战
背景概述
在语音技术研究领域,方言语音资源的稀缺性长期制约着相关模型的发展与应用。南昌方言作为赣语的重要分支,其独特的语音特征和语调模式为方言语音识别与合成带来了特殊的研究价值。TingChen-ppmc/Nanchang_Dialect_Conversational_Speech_Corpus数据集基于MagicData发布的原始语料构建,收录了真实对话场景下的南昌方言语音数据,每条数据均包含音频、说话人性别、说话人ID及对应文本转录。该数据集的创建旨在填补方言语音资源的空白,为方言语音识别、说话人识别及方言保护等研究提供关键数据支撑,推动了方言计算语言学的发展。
当前挑战
该数据集致力于解决方言语音识别这一核心领域问题,其挑战在于南昌方言与标准普通话在音系、词汇及语法上存在显著差异,导致通用语音识别模型性能下降。构建过程中的挑战包括对话语音的切分与清洗,需依据转录时间戳精准分割连续语音流,并过滤时长过短的无效片段;同时需在遵守非商业许可协议的前提下,对原始语料进行合规处理与重构,确保数据质量与法律规范性。这些挑战共同凸显了方言语音数据构建的技术复杂性与资源整合难度。
常用场景
经典使用场景
在方言语音识别领域,南昌方言对话语音语料库为研究者提供了珍贵的资源。该数据集通过采集真实对话场景中的语音样本,并辅以精确的文本转录,能够有效支持方言语音识别模型的训练与评估。其经典使用场景在于构建和优化针对南昌方言的自动语音识别系统,通过分析语音信号与文本的对应关系,提升模型在方言环境下的识别准确率与鲁棒性。
解决学术问题
该数据集主要解决了方言语音资源稀缺这一核心学术问题。在语言学与计算语言学交叉领域,它助力于方言语音的声学建模、音系分析以及方言与普通话之间的对比研究。其意义在于填补了南昌方言在标准化语音语料方面的空白,为方言保护、语音技术普惠性研究提供了数据基础,推动了多方言环境下的语音技术公平发展。
衍生相关工作
围绕该数据集,已衍生出若干经典研究工作。例如,基于此类方言对话语料进行的数据增强与迁移学习研究,旨在利用有限方言数据提升模型性能。此外,在语音合成领域,相关工作探索了如何利用该语料库训练能够合成自然南昌方言语音的声学模型,进一步拓展了方言语音技术的应用边界。
以上内容由遇见数据集搜集并总结生成



