five

四川方言语音数据集|方言语音数据数据集|语音识别数据集

收藏
github2023-05-09 更新2024-05-31 收录
方言语音数据
语音识别
下载链接:
https://github.com/cjh-huihui/sichuan-dialect
下载链接
链接失效反馈
资源简介:
总时长50小时,数据来自于b站李伯清说书视频,有一些杂音。后十一个文件夹有3000多条,其余的有300多条。来自magic data 网站的6.4小时开源四川数据集sichuan.zip。本人小菜鸡采集数据用于本科毕设,十分感谢yeyupiaoling (夜雨飘零)作者大大,使用作者大大的MASR项目代码,最后通过conformer训练的cer如下。

The total duration is 50 hours, with data sourced from Li Boqing's storytelling videos on Bilibili, which contain some noise. The last eleven folders contain over 3,000 entries, while the rest have more than 300. Additionally, 6.4 hours of open-source Sichuan dialect data from the Magic Data website, specifically the sichuan.zip file, were used. As a novice, I collected this data for my undergraduate thesis and am immensely grateful to the author yeyupiaoling (Night Rain Drifting) for their MASR project code. The final CER (Character Error Rate) achieved through Conformer training is as follows.
创建时间:
2023-05-09
原始信息汇总

四川方言语音数据集概述

数据集基本信息

  • 数据集名称: 四川方言语音数据集
  • 数据集文件: sc_dataset2.zip
  • 总时长: 50小时
  • 数据来源: b站李伯清说书视频
  • 音频质量: 包含一些杂音

数据集结构

  • 文件夹分布:
    • 后十一个文件夹包含约3000条语音数据
    • 其他文件夹包含约300条语音数据

数据集内容

  • 标注文件: 提供txt格式的标注文件

相关资源

  • 相关数据集: 来自magic data网站的6.4小时开源四川数据集sichuan.zip

下载信息

  • 下载链接: https://pan.baidu.com/s/1F7HBjl3nB5bU0LPxI16hdQ
  • 提取码: lvud
AI搜集汇总
数据集介绍
main_image_url
构建方式
四川方言语音数据集的构建主要依赖于公开的视频资源,具体来源于B站上的李伯清说书视频。数据集总时长达50小时,尽管存在一定的背景杂音,但通过精心筛选和处理,确保了数据的可用性。此外,数据集还整合了来自magic data网站的6.4小时开源四川方言数据,进一步丰富了数据集的多样性和覆盖范围。
使用方法
使用四川方言语音数据集时,用户首先需要从提供的百度网盘链接下载数据集。下载后,数据集可以直接用于语音识别模型的训练和测试。用户可以利用提供的标注txt文件进行数据预处理,如文本清洗和格式转换。此外,数据集适用于多种语音处理任务,包括但不限于方言识别、语音转文本等,为相关领域的研究提供了坚实的数据支持。
背景与挑战
背景概述
四川方言语音数据集是一个专注于四川方言语音识别的研究资源,由个人研究者基于B站李伯清说书视频及Magic Data网站的开源数据构建而成。该数据集总时长约50小时,包含多个文件夹,每个文件夹中存储了数百至数千条语音数据。数据集的创建初衷是为了支持本科毕业设计,并借助开源项目MASR进行语音识别模型的训练与评估。四川方言作为汉语的重要分支之一,具有独特的语音特征和词汇表达,该数据集的构建为方言语音识别领域提供了宝贵的研究素材,推动了方言语音技术的进步。
当前挑战
四川方言语音数据集在构建与应用过程中面临多重挑战。首先,方言语音识别本身具有较高的技术难度,四川方言的语音特征与普通话存在显著差异,导致模型训练时需要处理更多的语音变异和噪声干扰。其次,数据采集过程中存在背景杂音问题,影响了语音数据的纯净度,增加了后续处理的复杂性。此外,数据标注的准确性和一致性也是关键挑战,尤其是在方言语境下,标注者需要具备深厚的语言学知识。最后,数据集的规模相对有限,可能限制了模型训练的泛化能力,未来需要进一步扩充数据量以提升模型的鲁棒性。
常用场景
经典使用场景
四川方言语音数据集广泛应用于方言语音识别和自然语言处理领域。研究者利用该数据集进行方言语音到文本的转换实验,探索方言与普通话之间的语音差异及其对识别准确率的影响。通过深度学习模型如Conformer的训练,该数据集为方言语音识别提供了宝贵的实验数据。
解决学术问题
该数据集有效解决了方言语音识别中的关键问题,如方言语音的多样性和复杂性。通过提供大量标注的四川方言语音数据,研究者能够训练出更精确的语音识别模型,从而推动方言语音识别技术的发展,填补了方言语音数据在学术研究中的空白。
实际应用
在实际应用中,四川方言语音数据集被用于开发智能语音助手和方言翻译工具。这些工具能够更好地服务于四川地区的用户,提升语音交互的准确性和用户体验。此外,该数据集还可用于方言保护和传承,通过技术手段记录和保存濒危方言。
数据集最近研究
最新研究方向
近年来,随着语音识别技术的迅猛发展,方言语音数据集的研究逐渐成为热点。四川方言语音数据集作为其中的重要组成部分,不仅为方言语音识别提供了丰富的语料资源,还推动了方言保护和文化传承的研究。该数据集通过采集自李伯清说书视频的50小时语音数据,结合开源数据集,为研究者提供了多样化的训练样本。前沿研究方向主要集中在利用深度学习模型如Conformer进行方言语音识别,以降低字符错误率(CER),并探索在嘈杂环境下的语音增强技术。这些研究不仅提升了方言语音识别的准确性和鲁棒性,还为多语言、多方言的语音处理系统提供了重要参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Open Power System Data

Open Power System Data is a free-of-charge data platform dedicated to electricity system researchers. We collect, check, process, document, and publish data that are publicly available but currently inconvenient to use. The project is a service provider to the modeling community: a supplier of a public good. Learn more about its background or just go ahead and explore the data platform.

re3data.org 收录

Global Solar Dataset

在快速扩展的太阳能领域,找到全面的国家规模光伏(PV)数据集可能具有挑战性。资源通常分散在多个网站和API中,质量和可访问性差异显著。该仓库旨在通过将这些数据集的位置集中到一个位置来简化对这些数据集的访问,从而支持研究并促进新旧市场中太阳能预测模型的开发。

github 收录

豆瓣数据集

该数据集通过爬虫技术从豆瓣网站获取了48223条电影数据,并与movielens ml-latest数据集通过共同的imdb字段进行交集处理,最终得到15752条共同数据。数据存储格式为JSON,支持导入到MongoDB或其他数据库使用。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录