ivrit.ai

Name: ivrit.ai
Creator: 魏茨曼科学研究所
Published: 2023-07-17 12:19:30
License: 暂无描述

arXiv2023-07-17 更新2024-06-21 收录

下载链接：

https://huggingface.co/ivrit-ai

下载链接

链接失效反馈

官方服务：

资源简介：

ivrit.ai是由魏茨曼科学研究所创建的综合性希伯来语语音数据集，旨在解决希伯来语自动语音识别（ASR）技术资源不足的问题。该数据集包含超过3,300小时的希伯来语语音，来自1000多名不同背景的说话者，涵盖多种语境和话题。数据集提供三种形式：原始未处理音频、语音活动检测后的数据和部分转录数据，以满足不同研究需求。ivrit.ai的开放访问性质使其成为研究人员、开发者和商业实体的重要资源，广泛应用于提升希伯来语AI能力，如紧急响应系统、辅助工具和医疗转录服务等。

ivrit.ai is a comprehensive Hebrew speech dataset developed by the Weizmann Institute of Science, aiming to address the shortage of technical resources for Hebrew automatic speech recognition (ASR) technology. This dataset contains over 3,300 hours of Hebrew speech from more than 1,000 speakers with diverse backgrounds, covering various contexts and topics. It offers three formats: raw unprocessed audio, data processed via voice activity detection (VAD), and partially transcribed data to meet different research requirements. Benefiting from its open access nature, ivrit.ai has become a critical resource for researchers, developers and commercial entities, and is widely applied to enhance Hebrew AI capabilities such as emergency response systems, assistive tools and medical transcription services.

提供机构：

魏茨曼科学研究所

创建时间：

2023-07-17

搜集汇总

数据集介绍

构建方式

在希伯来语自动语音识别研究资源匮乏的背景下，ivrit.ai数据集通过系统化采集流程构建而成。研究团队从播客等多种在线平台广泛收集原始音频素材，累计获取超过3300小时的希伯来语语音数据。数据处理采用分层架构：原始音频保留未经处理的初始状态；经过语音活动检测技术分割为包含有效语音的片段；部分数据通过Whisper ASR工具进行机器转录，形成包含280万条话语的文本标注。所有素材均获得内容创作者的合法授权，确保数据集在符合知识产权规范的前提下支持商业应用。

特点

该数据集的核心特征体现在规模与多样性的双重优势。3300小时的语音时长与上千名发音人的覆盖范围，构成了当前最全面的希伯来语语音资源库。发音人群体在性别、年龄、语言背景方面呈现显著差异，既包含母语者也涵盖将希伯来语作为第二语言的使用者。语音类型涵盖正式讲座、日常对话、专题播客等多种场景，主题涉及科技、历史、哲学等广泛领域。数据呈现形式具有灵活性，提供原始音频、分段音频及部分转录文本三种版本，满足不同研究阶段的需求。

使用方法

研究者在自然语言处理与语音技术领域可多维度利用该数据集。其大规模标注语音可直接用于训练端到端的希伯来语自动语音识别模型，特别是基于Transformer架构的现代系统。未经标注的原始音频适用于自监督学习与语音表示学习任务，为预训练模型开发提供资源。数据集包含的多样化发音人与噪声环境，能够有效提升模型在真实场景中的鲁棒性。商业开发者可依据增强型CC-BY 4.0许可协议，将数据用于产品级语音系统的研发与优化。

背景与挑战

背景概述

在自动语音识别技术蓬勃发展的背景下，希伯来语因缺乏大规模高质量语音数据而长期处于研究滞后状态。2023年，魏茨曼科学研究所的Yanir Marmor等人联合哈达萨研究基金，共同发布了ivrit.ai数据集，旨在填补这一空白。该数据集收录超过3300小时、涵盖上千名多样化发言者的希伯来语语音，内容横跨播客、讲座及日常对话等多种场景，并以原始音频、语音活动检测后数据及部分转录数据三种形式公开。其采用增强型CC-BY 4.0许可，允许商业用途，为希伯来语ASR及自然语言处理研究提供了关键基础设施，显著推动了该语言在人工智能领域的生态发展。

当前挑战

ivrit.ai数据集致力于解决希伯来语自动语音识别领域资源匮乏的核心挑战，其构建需应对多维度难题。在领域层面，希伯来语语音处理面临音系结构独特、方言变体复杂以及口语与书面语差异显著等问题，导致通用ASR模型迁移效果不佳。构建过程中，团队需克服大规模多源音频数据的合法采集与版权协调困难，确保数千小时数据在合规框架下整合；同时，语音活动检测与自动转录需处理背景噪声、多人重叠发言及非母语口音等声学变异，而数据多样性带来的录音质量不均与说话人属性不平衡，亦对模型训练的鲁棒性构成潜在影响。

常用场景

经典使用场景

在希伯来语自动语音识别研究领域，ivrit.ai数据集为构建和优化端到端ASR模型提供了核心训练资源。该数据集包含超过3300小时的多样化语音素材，覆盖从正式讲座到日常对话的多种场景，为模型训练提供了丰富的声学特征和语言模式。研究者利用其大规模标注数据，能够有效训练基于Transformer架构的现代语音识别系统，显著提升希伯来语语音转写的准确性与鲁棒性。

衍生相关工作

围绕ivrit.ai数据集已衍生出多项重要研究工作，包括基于Whisper架构的希伯来语语音识别模型优化、结合自监督学习的低资源语音表征学习框架，以及跨语言语音合成系统的适应性研究。该数据集亦成为评估HeBERT、AlephBERT等希伯来语文本模型在语音-文本多模态任务中性能的关键基准，推动了端到端语音翻译、情感语音分析等交叉领域的技术探索。

数据集最近研究