five

WenetSpeech|语音识别数据集|普通话数据集

收藏
arXiv2022-02-23 更新2024-06-21 收录
语音识别
普通话
下载链接:
https://github.com/wenet-e2e/WenetSpeech
下载链接
链接失效反馈
资源简介:
WenetSpeech是一个大规模的多领域普通话语音数据集,总时长超过22400小时,包括10000+小时高质量标注语音、2400+小时弱标注语音和约10000小时未标注语音。数据来源于YouTube和Podcast,覆盖多种说话风格、场景、领域、话题和噪声条件。通过光学字符识别(OCR)方法和高质量自动语音识别(ASR)转录系统生成音频/文本分割候选,并采用端到端标签错误检测方法进行验证和过滤。此外,提供三个手动标注的高质量测试集用于评估。WenetSpeech是目前最大的开源普通话语音语料库,适用于生产级语音识别研究。
提供机构:
西北工业大学音频、语音和语言处理组 (ASLP@NPU)
创建时间:
2021-10-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
WenetSpeech 数据集的构建采用了多种技术手段,以确保高质量和多样性。首先,从 YouTube 和 Podcast 等平台收集了超过 10,000 小时的语音数据,涵盖了各种说话风格、场景、领域、话题和噪声条件。接着,使用 OCR 技术从 YouTube 视频的字幕中生成音频/文本分割候选者,并使用高质量的 ASR 系统为 Podcast 数据生成音频/文本对候选者。最后,提出了一种新的端到端标签错误检测方法,以进一步验证和筛选候选者。
特点
WenetSpeech 数据集的特点包括:大规模、多样性和可扩展性。数据集提供了超过 10,000 小时的标记数据、2,400 小时的弱标记数据和约 10,000 小时的未标记数据,总计超过 22,400 小时。数据来自 YouTube 和 Podcast,涵盖了多种说话风格、场景、领域、话题和噪声条件。此外,数据集还设计了一种可扩展的元数据,以便在未来扩展数据。
使用方法
WenetSpeech 数据集的使用方法如下:首先,下载数据集并解压。然后,根据需要选择训练数据子集(S、M 或 L)。接着,使用所选工具包(Kaldi、ESPnet 或 WeNet)对数据集进行预处理和训练。最后,使用评估集(Dev、Test Net 或 Test Meeting)对训练好的模型进行评估。在训练和评估过程中,可以根据需要调整参数和策略,以获得更好的性能。
背景与挑战
背景概述
在自动语音识别(ASR)系统性能显著提升的背景下,研究者们不断探索新的模型和方法,以推动ASR技术的进步。WenetSpeech数据集的创建,正是为了满足这一领域的研究需求。该数据集由西北工业大学计算机科学与技术学院语音信号处理研究组(ASLP@NPU)与Mobvoi Inc.、北京壳壳科技有限公司等机构合作开发,于2022年发布。WenetSpeech数据集包含超过10000小时的高质量标注语音、2400+小时弱标注语音和约10000小时未标注语音,总计超过22400小时。数据来源包括YouTube和播客,涵盖了多种讲话风格、场景、领域、话题和噪声条件。为了获取高质量的文本标注,研究人员引入了光学字符识别(OCR)方法,用于生成YouTube视频字幕的音频/文本分割候选,同时采用高质量的ASR转录系统生成播客数据的音频/文本对候选。此外,研究人员还提出了一种新颖的端到端标签错误检测方法,以进一步验证和筛选候选数据。WenetSpeech数据集的发布,为语音识别研究提供了丰富的资源和工具,有助于推动更通用的ASR系统的发展。
当前挑战
尽管WenetSpeech数据集提供了大量的语音数据,但构建过程中仍面临一些挑战。首先,在解决领域问题方面,数据集的构建旨在克服现有中文语音数据集规模小、领域单一的问题。其次,在构建过程中,研究人员需要解决从互联网上收集数据时的版权问题,并确保数据的合法性和合规性。此外,由于数据集包含大量未标注的语音数据,如何有效地利用这些数据,提高模型的鲁棒性和泛化能力,也是一个重要的挑战。为了解决这些挑战,研究人员引入了OCR方法和高质量的ASR转录系统,并提出了端到端标签错误检测方法。同时,他们还提供了三个手动标注的高质量测试集,以供评估和验证。WenetSpeech数据集的发布,为语音识别研究提供了重要的资源和工具,有助于推动该领域的发展。
常用场景
经典使用场景
WenetSpeech数据集在自动语音识别(ASR)领域具有重要应用价值,尤其适用于多领域、多场景的语音识别任务。其大规模、多样性的数据特点使得该数据集成为研究生产级语音识别系统的重要资源。
衍生相关工作
WenetSpeech数据集的发布对语音识别领域产生了深远的影响,推动了生产级语音识别系统的研究和发展。基于WenetSpeech数据集,研究者们开发了多种先进的语音识别模型和算法,如端到端模型、自监督语音表示学习等,为语音识别技术的进步做出了重要贡献。
数据集最近研究
最新研究方向
WenetSpeech数据集作为目前最大的开源中文语音语料库,其包含了丰富的领域多样性,对于开发更通用的语音识别系统具有重要意义。WenetSpeech数据集的最新研究方向主要集中在以下几个方面:首先,探索如何利用大规模无标注数据来提高语音识别系统的性能,例如,通过自监督学习方法,如wav2vec 2.0等,来学习语音表示。其次,研究如何通过端到端的标签错误检测方法来提高语音语料库的质量,从而提升语音识别系统的准确率。此外,研究如何设计可扩展的元数据来满足未来的数据扩展需求。WenetSpeech数据集的研究对于推动语音识别技术的发展,以及提高语音识别系统的实用性和泛化能力具有重要意义。
相关研究论文
  • 1
    WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech Recognition西北工业大学音频、语音和语言处理组 (ASLP@NPU) · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录