five

HEBDB

收藏
arXiv2024-07-10 更新2024-07-11 收录
下载链接:
https://pages.cs.huji.ac.il/adiyoss-lab/HebDB/
下载链接
链接失效反馈
官方服务:
资源简介:
HEBDB是由耶路撒冷希伯来大学和以色列理工学院共同创建的一个用于希伯来语语音处理的数据集。该数据集包含约2500小时的自然和即兴希伯来语语音记录,涵盖了多种说话者和主题。数据集的创建旨在推动希伯来语语音处理工具的研究和开发,特别是在自动语音识别(ASR)领域。数据集包括原始录音和预处理版本,预处理版本经过语音活动检测和自动转录,更适合用于训练声学模型。HEBDB的应用领域主要集中在人工智能和语音技术,旨在解决低资源语言在语音处理方面的挑战。

HEBDB is a dataset for Hebrew speech processing co-created by the Hebrew University of Jerusalem and the Technion – Israel Institute of Technology. It contains approximately 2,500 hours of natural and spontaneous Hebrew speech recordings, covering a wide range of speakers and topics. The dataset was developed to advance research and development of Hebrew speech processing tools, particularly in the field of automatic speech recognition (ASR). It includes both raw audio recordings and preprocessed versions. The preprocessed variants have undergone voice activity detection and automatic transcription, making them more suitable for acoustic model training. HEBDB is primarily applied in artificial intelligence and speech technology, aiming to address the challenges in speech processing for low-resource languages.
提供机构:
耶路撒冷希伯来大学, 以色列理工学院
创建时间:
2024-07-10
原始信息汇总

HebDB 数据集概述

数据集名称

HebDB

数据集描述

HebDB 是一个用于希伯来语语音处理的弱监督数据集。该数据集提供了大约 2500 小时的自然和即兴的希伯来语语音记录,包含多种说话者和话题。

关键词

HebDB, 深度学习, 语音, 数据集, 希伯来语语音

作者

  • Arnon Turetzky<sup>1</sup>
  • Or Tal<sup>1</sup>
  • Yael Segal<sup>2</sup>
  • Yehoshua Dissen<sup>2</sup>
  • Ella Zeldes<sup>1</sup>
  • Amit Roth<sup>1</sup>
  • Eyal Cohen<sup>2</sup>
  • Yosi Shrem<sup>2</sup>
  • Roni Chernyak<sup>2</sup>
  • Olga Seleznova<sup>2</sup>
  • Joseph Keshet<sup>2</sup>
  • Yossi Adi<sup>1</sup>

机构

  • <sup>1</sup>耶路撒冷希伯来大学
  • <sup>2</sup>以色列理工学院
搜集汇总
数据集介绍
main_image_url
构建方式
HEBDB数据集的构建主要依托于自然和自发的希伯来语语音记录,涵盖了广泛的讲话者和主题。原始记录与预先处理过的、弱监督的、过滤过的版本一同提供。为了优化语音模型,研究人员首先将所有音频记录重新采样到16kHz的单声道录音,然后使用语音活动检测(VAD)模型将波形分割成句子并丢弃空旷和嘈杂的部分。最后,使用预训练的自动语音识别(ASR)模型自动转录分割后的语音片段。构建过程中,数据被分为原始和预处理两个版本,以满足不同研究需求。
使用方法
HEBDB数据集的使用方法包括获取原始和预处理版本的数据,以及使用提供的两个基线系统:一个自监督模型和一个完全监督的ASR模型。这些基线系统在HEBDB上进行优化,并在FleuRS基准的希伯来语子集上进行评估。数据集、代码和模型均可在https://pages.cs.huji.ac.il/adiyoss-lab/HebDB/公开获取。用户可以根据需要下载和使用这些资源,以推进希伯来语语音处理的研究和开发。
背景与挑战
背景概述
在语音处理领域,自动语音识别(ASR)技术取得了显著的进展,得益于深度神经网络和大规模数据集的广泛应用。然而,低资源语言,如希伯来语,由于缺乏大规模的数据集,其语音处理工具的发展相对滞后。为了解决这一问题,研究人员创建了HEBDB数据集,这是一个弱监督的希伯来语语音处理数据集。该数据集由耶路撒冷希伯来大学和以色列理工学院的研究团队于2024年7月发布,旨在通过提供约2500小时的希伯来语自然和自发语音录音,促进希伯来语音处理工具的研究和开发。HEBDB不仅包含原始录音,还提供了预处理、弱监督和过滤后的版本,以及两个ASR基线系统:一个自监督模型和一个完全监督模型。该数据集的创建对希伯来语音技术领域产生了深远的影响,为低资源语言的语音处理研究提供了宝贵资源。
当前挑战
HEBDB数据集的创建和利用面临诸多挑战。首先,希伯来语作为一种低资源语言,缺乏大规模的数据集,这限制了语音处理工具的性能。其次,希伯来语的语法和结构特性,如使用非拉丁字母、传统希伯来语中的重音符号以及形态丰富的特点,都对ASR和TTS系统提出了挑战。此外,构建HEBDB数据集时,研究人员需要处理原始录音中的非语音片段,如音乐、环境噪音和沉默,并使用弱监督方法进行语音识别。为了提高转录的可靠性,研究人员还采用了数据过滤技术,根据转录置信度分数筛选数据。尽管HEBDB数据集的发布为希伯来语音技术领域的研究提供了重要资源,但数据质量评估和改进仍有待进一步提高,以支持更高质量的语音处理工具的开发。
常用场景
经典使用场景
在语音识别领域,HEBDB数据集被广泛应用于训练自动语音识别(ASR)模型。它提供了丰富的自然语音数据,涵盖了多种主题和说话人,使得模型能够在多样性的语境中学习并提高识别准确率。此外,HEBDB的预处理和弱监督转录版本为研究者提供了便利,使其能够更快速地开发和评估ASR模型。
解决学术问题
HEBDB数据集解决了低资源语言(如希伯来语)在语音识别研究中的数据稀缺问题。通过提供大规模的语音数据,HEBDB为希伯来语语音识别研究提供了基础,使得研究者能够更深入地探索和开发适用于低资源语言的语音识别技术。此外,HEBDB的弱监督转录版本也为研究者提供了不同监督质量的数据,有助于研究者在不同的数据条件下进行模型训练和评估。
实际应用
HEBDB数据集在实际应用中具有广泛的应用前景。它可以帮助开发适用于希伯来语的语音识别系统,例如语音助手、语音搜索、语音输入等。此外,HEBDB数据集还可以用于开发语音合成、语音增强等语音处理技术,进一步提高希伯来语语音处理的应用水平。
数据集最近研究
最新研究方向
HEBDB数据集为希伯来语音处理领域提供了宝贵的资源,其弱监督的特性使其在资源有限的希伯来语语音处理研究中尤为重要。该数据集不仅包含了约2500小时的希伯来语自然对话录音,还包括了预处理的版本,以及两个基线系统:自监督模型和完全监督的自动语音识别(ASR)模型。这些基线系统在HEBDB上的表现显示,即使在较小的模型尺寸下,HEBDB也能够提供比现有多语言ASR模型更好的性能。此外,HEBDB的数据过滤过程为研究数据质量评估提供了新的视角,未来有望通过更高的质量标注进一步提升语音处理工具的准确性。该数据集的发布,不仅促进了希伯来语语音处理技术的发展,也为其他低资源语言的语音处理研究提供了借鉴。
相关研究论文
  • 1
    HebDB: a Weakly Supervised Dataset for Hebrew Speech Processing耶路撒冷希伯来大学, 以色列理工学院 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作