HEBDB

Name: HEBDB
Creator: 耶路撒冷希伯来大学, 以色列理工学院
Published: 2024-07-10 19:51:26
License: 暂无描述

arXiv2024-07-10 更新2024-07-11 收录

下载链接：

https://pages.cs.huji.ac.il/adiyoss-lab/HebDB/

下载链接

链接失效反馈

官方服务：

资源简介：

HEBDB是由耶路撒冷希伯来大学和以色列理工学院共同创建的一个用于希伯来语语音处理的数据集。该数据集包含约2500小时的自然和即兴希伯来语语音记录，涵盖了多种说话者和主题。数据集的创建旨在推动希伯来语语音处理工具的研究和开发，特别是在自动语音识别（ASR）领域。数据集包括原始录音和预处理版本，预处理版本经过语音活动检测和自动转录，更适合用于训练声学模型。HEBDB的应用领域主要集中在人工智能和语音技术，旨在解决低资源语言在语音处理方面的挑战。

HEBDB is a dataset for Hebrew speech processing co-created by the Hebrew University of Jerusalem and the Technion – Israel Institute of Technology. It contains approximately 2,500 hours of natural and spontaneous Hebrew speech recordings, covering a wide range of speakers and topics. The dataset was developed to advance research and development of Hebrew speech processing tools, particularly in the field of automatic speech recognition (ASR). It includes both raw audio recordings and preprocessed versions. The preprocessed variants have undergone voice activity detection and automatic transcription, making them more suitable for acoustic model training. HEBDB is primarily applied in artificial intelligence and speech technology, aiming to address the challenges in speech processing for low-resource languages.

提供机构：

耶路撒冷希伯来大学, 以色列理工学院

创建时间：

2024-07-10

原始信息汇总

HebDB 数据集概述

数据集名称

HebDB

数据集描述

HebDB 是一个用于希伯来语语音处理的弱监督数据集。该数据集提供了大约 2500 小时的自然和即兴的希伯来语语音记录，包含多种说话者和话题。

关键词

HebDB, 深度学习, 语音, 数据集, 希伯来语语音

作者

Arnon Turetzky1
Or Tal1
Yael Segal2
Yehoshua Dissen2
Ella Zeldes1
Amit Roth1
Eyal Cohen2
Yosi Shrem2
Roni Chernyak2
Olga Seleznova2
Joseph Keshet2
Yossi Adi1

机构

1耶路撒冷希伯来大学
2以色列理工学院

搜集汇总

数据集介绍

构建方式

HEBDB数据集的构建主要依托于自然和自发的希伯来语语音记录，涵盖了广泛的讲话者和主题。原始记录与预先处理过的、弱监督的、过滤过的版本一同提供。为了优化语音模型，研究人员首先将所有音频记录重新采样到16kHz的单声道录音，然后使用语音活动检测（VAD）模型将波形分割成句子并丢弃空旷和嘈杂的部分。最后，使用预训练的自动语音识别（ASR）模型自动转录分割后的语音片段。构建过程中，数据被分为原始和预处理两个版本，以满足不同研究需求。

使用方法

HEBDB数据集的使用方法包括获取原始和预处理版本的数据，以及使用提供的两个基线系统：一个自监督模型和一个完全监督的ASR模型。这些基线系统在HEBDB上进行优化，并在FleuRS基准的希伯来语子集上进行评估。数据集、代码和模型均可在https://pages.cs.huji.ac.il/adiyoss-lab/HebDB/公开获取。用户可以根据需要下载和使用这些资源，以推进希伯来语语音处理的研究和开发。

背景与挑战

背景概述

在语音处理领域，自动语音识别（ASR）技术取得了显著的进展，得益于深度神经网络和大规模数据集的广泛应用。然而，低资源语言，如希伯来语，由于缺乏大规模的数据集，其语音处理工具的发展相对滞后。为了解决这一问题，研究人员创建了HEBDB数据集，这是一个弱监督的希伯来语语音处理数据集。该数据集由耶路撒冷希伯来大学和以色列理工学院的研究团队于2024年7月发布，旨在通过提供约2500小时的希伯来语自然和自发语音录音，促进希伯来语音处理工具的研究和开发。HEBDB不仅包含原始录音，还提供了预处理、弱监督和过滤后的版本，以及两个ASR基线系统：一个自监督模型和一个完全监督模型。该数据集的创建对希伯来语音技术领域产生了深远的影响，为低资源语言的语音处理研究提供了宝贵资源。

当前挑战

HEBDB数据集的创建和利用面临诸多挑战。首先，希伯来语作为一种低资源语言，缺乏大规模的数据集，这限制了语音处理工具的性能。其次，希伯来语的语法和结构特性，如使用非拉丁字母、传统希伯来语中的重音符号以及形态丰富的特点，都对ASR和TTS系统提出了挑战。此外，构建HEBDB数据集时，研究人员需要处理原始录音中的非语音片段，如音乐、环境噪音和沉默，并使用弱监督方法进行语音识别。为了提高转录的可靠性，研究人员还采用了数据过滤技术，根据转录置信度分数筛选数据。尽管HEBDB数据集的发布为希伯来语音技术领域的研究提供了重要资源，但数据质量评估和改进仍有待进一步提高，以支持更高质量的语音处理工具的开发。

常用场景

经典使用场景

在语音识别领域，HEBDB数据集被广泛应用于训练自动语音识别（ASR）模型。它提供了丰富的自然语音数据，涵盖了多种主题和说话人，使得模型能够在多样性的语境中学习并提高识别准确率。此外，HEBDB的预处理和弱监督转录版本为研究者提供了便利，使其能够更快速地开发和评估ASR模型。

解决学术问题

HEBDB数据集解决了低资源语言（如希伯来语）在语音识别研究中的数据稀缺问题。通过提供大规模的语音数据，HEBDB为希伯来语语音识别研究提供了基础，使得研究者能够更深入地探索和开发适用于低资源语言的语音识别技术。此外，HEBDB的弱监督转录版本也为研究者提供了不同监督质量的数据，有助于研究者在不同的数据条件下进行模型训练和评估。

实际应用

HEBDB数据集在实际应用中具有广泛的应用前景。它可以帮助开发适用于希伯来语的语音识别系统，例如语音助手、语音搜索、语音输入等。此外，HEBDB数据集还可以用于开发语音合成、语音增强等语音处理技术，进一步提高希伯来语语音处理的应用水平。

数据集最近研究