四川方言语音数据集|方言语音数据数据集|语音识别数据集

github2023-05-09 更新2024-05-31 收录

方言语音数据

语音识别

下载链接：

https://github.com/cjh-huihui/sichuan-dialect

下载链接

链接失效反馈

资源简介：

总时长50小时，数据来自于b站李伯清说书视频，有一些杂音。后十一个文件夹有3000多条，其余的有300多条。来自magic data 网站的6.4小时开源四川数据集sichuan.zip。本人小菜鸡采集数据用于本科毕设，十分感谢yeyupiaoling (夜雨飘零)作者大大，使用作者大大的MASR项目代码，最后通过conformer训练的cer如下。

The total duration is 50 hours, with data sourced from Li Boqing's storytelling videos on Bilibili, which contain some noise. The last eleven folders contain over 3,000 entries, while the rest have more than 300. Additionally, 6.4 hours of open-source Sichuan dialect data from the Magic Data website, specifically the sichuan.zip file, were used. As a novice, I collected this data for my undergraduate thesis and am immensely grateful to the author yeyupiaoling (Night Rain Drifting) for their MASR project code. The final CER (Character Error Rate) achieved through Conformer training is as follows.

创建时间：

2023-05-09

原始信息汇总

四川方言语音数据集概述

数据集基本信息

数据集名称: 四川方言语音数据集
数据集文件: sc_dataset2.zip
总时长: 50小时
数据来源: b站李伯清说书视频
音频质量: 包含一些杂音

数据集结构

文件夹分布:
- 后十一个文件夹包含约3000条语音数据
- 其他文件夹包含约300条语音数据

数据集内容

标注文件: 提供txt格式的标注文件

下载信息

下载链接: https://pan.baidu.com/s/1F7HBjl3nB5bU0LPxI16hdQ
提取码: lvud

AI搜集汇总

数据集介绍

构建方式

四川方言语音数据集的构建主要依赖于公开的视频资源，具体来源于B站上的李伯清说书视频。数据集总时长达50小时，尽管存在一定的背景杂音，但通过精心筛选和处理，确保了数据的可用性。此外，数据集还整合了来自magic data网站的6.4小时开源四川方言数据，进一步丰富了数据集的多样性和覆盖范围。

使用方法

使用四川方言语音数据集时，用户首先需要从提供的百度网盘链接下载数据集。下载后，数据集可以直接用于语音识别模型的训练和测试。用户可以利用提供的标注txt文件进行数据预处理，如文本清洗和格式转换。此外，数据集适用于多种语音处理任务，包括但不限于方言识别、语音转文本等，为相关领域的研究提供了坚实的数据支持。

背景与挑战

背景概述

四川方言语音数据集是一个专注于四川方言语音识别的研究资源，由个人研究者基于B站李伯清说书视频及Magic Data网站的开源数据构建而成。该数据集总时长约50小时，包含多个文件夹，每个文件夹中存储了数百至数千条语音数据。数据集的创建初衷是为了支持本科毕业设计，并借助开源项目MASR进行语音识别模型的训练与评估。四川方言作为汉语的重要分支之一，具有独特的语音特征和词汇表达，该数据集的构建为方言语音识别领域提供了宝贵的研究素材，推动了方言语音技术的进步。

当前挑战

四川方言语音数据集在构建与应用过程中面临多重挑战。首先，方言语音识别本身具有较高的技术难度，四川方言的语音特征与普通话存在显著差异，导致模型训练时需要处理更多的语音变异和噪声干扰。其次，数据采集过程中存在背景杂音问题，影响了语音数据的纯净度，增加了后续处理的复杂性。此外，数据标注的准确性和一致性也是关键挑战，尤其是在方言语境下，标注者需要具备深厚的语言学知识。最后，数据集的规模相对有限，可能限制了模型训练的泛化能力，未来需要进一步扩充数据量以提升模型的鲁棒性。

常用场景

经典使用场景

四川方言语音数据集广泛应用于方言语音识别和自然语言处理领域。研究者利用该数据集进行方言语音到文本的转换实验，探索方言与普通话之间的语音差异及其对识别准确率的影响。通过深度学习模型如Conformer的训练，该数据集为方言语音识别提供了宝贵的实验数据。

解决学术问题

该数据集有效解决了方言语音识别中的关键问题，如方言语音的多样性和复杂性。通过提供大量标注的四川方言语音数据，研究者能够训练出更精确的语音识别模型，从而推动方言语音识别技术的发展，填补了方言语音数据在学术研究中的空白。

实际应用

在实际应用中，四川方言语音数据集被用于开发智能语音助手和方言翻译工具。这些工具能够更好地服务于四川地区的用户，提升语音交互的准确性和用户体验。此外，该数据集还可用于方言保护和传承，通过技术手段记录和保存濒危方言。

数据集最近研究

最新研究方向

近年来，随着语音识别技术的迅猛发展，方言语音数据集的研究逐渐成为热点。四川方言语音数据集作为其中的重要组成部分，不仅为方言语音识别提供了丰富的语料资源，还推动了方言保护和文化传承的研究。该数据集通过采集自李伯清说书视频的50小时语音数据，结合开源数据集，为研究者提供了多样化的训练样本。前沿研究方向主要集中在利用深度学习模型如Conformer进行方言语音识别，以降低字符错误率（CER），并探索在嘈杂环境下的语音增强技术。这些研究不仅提升了方言语音识别的准确性和鲁棒性，还为多语言、多方言的语音处理系统提供了重要参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Breast Ultrasound Images (BUSI)

小型（约500×500像素）超声图像，适用于良性和恶性病变的分类和分割任务。

github 收录

ReferCOCO数据集

ReferCOCO数据集包括refcoco、refcoco+和refcocog三个子集，用于视觉定位任务。数据集包含图像和对应的描述性文本，用于训练和测试模型识别图像中特定对象的能力。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

四川方言语音数据集|方言语音数据数据集|语音识别数据集

四川方言语音数据集概述

数据集基本信息

数据集结构

数据集内容

相关资源

下载信息