five

espnet/jesus_dramas

收藏
Hugging Face2024-07-02 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/espnet/jesus_dramas
下载链接
链接失效反馈
官方服务:
资源简介:
Jesus Dramas数据集是一个包含430种语言的宗教音频戏剧的集合,总计约640小时的音频。音频以16kHz单声道格式存储,每个音频戏剧可能包含多个男女声的说话者。该数据集可用于语言识别、口语建模或语音表示学习。原始音频来源自InspirationalFilms网站。数据集用于训练XEUS,一个支持4000多种语言的多语言语音编码器。

Jesus Dramas is a collection of religious audio dramas across 430 languages, totaling around 640 hours. These audio files can be used for language identification, spoken language modeling, or speech representation learning. The dataset includes raw unsegmented audio in a 16kHz single-channel format, with each audio drama potentially containing multiple speakers of both male and female voices. The data was sourced from InspirationalFilms. This dataset is used to train the multilingual speech encoder XEUS, which supports over 4000 languages. The dataset contains three fields: id, language, and audio. It is released under the CC BY-NC-SA 4.0 license, and users are required to cite the relevant paper and acknowledge the original creators of the data.
提供机构:
espnet
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Jesus Dramas
  • 语言: 多语言(430种语言)
  • 总时长: 约640小时
  • 采样率: 16kHz
  • 声道: 单声道
  • 用途: 语言识别、口语语言建模、语音表示学习

数据结构

  • 特征:
    • id: 字符串类型,表示话语ID
    • language: 字符串类型,表示语言名称
    • audio: 音频数据,采样率为16kHz

数据集配置

  • 配置名称: default
  • 数据文件路径: data/train-*
  • 训练集:
    • 样本数: 423
    • 数据大小: 54665637580字节

许可证

  • 许可证类型: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 (CC BY-NC-SA 4.0)

引用

  • 论文引用:

    @misc{chen2024robustspeechrepresentationlearning, title={Towards Robust Speech Representation Learning for Thousands of Languages}, author={William Chen and Wangyou Zhang and Yifan Peng and Xinjian Li and Jinchuan Tian and Jiatong Shi and Xuankai Chang and Soumi Maiti and Karen Livescu and Shinji Watanabe}, year={2024}, eprint={2407.00837}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2407.00837}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在宗教音频资料数字化领域,Jesus Dramas数据集通过系统化网络爬取技术构建而成。其原始音频素材来源于InspirationalFilms平台的宗教戏剧资源,经过自动化采集流程汇聚了430种语言的音频内容。数据处理环节采用标准化采样率转换技术,将所有音频统一为16kHz单声道格式,确保声学特征的一致性。整个语料库包含约640小时未分割的连续音频流,每个文件可能包含多位男女声优的对话演绎,为后续语音分析提供了丰富的声学变异样本。
特点
该数据集最显著的特征在于其前所未有的语言多样性,覆盖430种语言的宗教戏剧音频,为低资源语言研究提供了珍贵素材。音频内容呈现多说话人混合的特点,包含男女声优的自然对话,模拟真实场景下的语音交互模式。所有音频均保持原始未分割状态,保留了完整的语境信息和自然韵律特征,为语音活动检测等下游任务提供了理想的基础数据。这种多语言、多说话人、连续语音的三重特性,使其成为训练跨语言语音编码器的理想选择。
使用方法
研究者可通过HuggingFace数据集库直接加载该资源,使用标准接口即可访问包含ID、语言标签和原始音频的三元数据结构。针对具体研究需求,建议首先采用语音活动检测模型对连续音频进行话语分割处理,将其转换为适用于语音识别或语言识别的片段化数据。在跨语言语音表示学习场景中,该数据集可作为XEUS等语音编码器的预训练素材,通过对比学习等方法提取语言无关的声学特征。使用过程中需注意遵守CC-BY-NC-SA 4.0许可协议,并在学术成果中规范引用相关论文。
背景与挑战
背景概述
在语音技术领域,构建覆盖广泛语言的语音数据集对于推动多语言语音表示学习至关重要。耶稣戏剧数据集由ESPnet团队于2024年创建,旨在汇集跨越430种语言的宗教音频戏剧,总计约640小时的音频资源。该数据集的核心研究问题聚焦于如何利用多样化的语音数据训练能够支持超过4000种语言的通用语音编码器XEUS,从而应对低资源语言语音表示学习的难题。其影响力体现在为语言识别、口语建模及语音表示学习提供了宝贵的多语言基准,显著促进了语音技术在全球范围内的普惠性发展。
当前挑战
耶稣戏剧数据集所解决的领域问题在于多语言语音表示学习,其挑战包括处理430种语言间的声学与语言学变异,以及应对低资源语言数据稀疏性导致的模型泛化能力不足。在构建过程中,团队面临原始音频爬取与整理的复杂性,需从InspirationalFilms等来源整合多语言内容,并确保音频质量与格式的统一。此外,数据集中包含多说话人及男女声混合,增加了语音活动检测与分段的技术难度,要求开发高效的预处理流程以支持后续模型训练。
常用场景
经典使用场景
在语音技术领域,多语言语音数据的稀缺性一直是制约模型泛化能力的关键瓶颈。Jesus Dramas数据集以其涵盖430种语言、总计约640小时的宗教音频戏剧资源,为语言识别、口语语言建模及语音表示学习提供了宝贵的训练素材。该数据集中的音频以16kHz单声道格式呈现,包含男女多说话人对话,研究者可借助语音活动检测模型将其切分为独立话语单元,进而构建大规模多语言语音语料库,支撑跨语言语音处理任务的模型训练与评估。
实际应用
在实际应用层面,该数据集为多语言语音服务提供了关键支持。基于其训练的模型可集成于语音识别、语音合成及语言识别系统中,服务于宗教内容传播、教育资源共享、文化遗产保护等场景。例如,在偏远地区或少数民族社区,利用此类模型可实现本地语言语音交互系统的快速部署,促进信息无障碍访问。同时,数据集也为企业开发跨语言语音助手、内容审核工具及语音分析平台提供了可靠的多语言数据源。
衍生相关工作
围绕该数据集衍生的经典工作以XEUS多语言语音编码器为代表。这项研究利用Jesus Dramas及其他语料,构建了覆盖4000余种语言的统一语音表示模型,解决了极端多语言环境下语音表征学习的难题。相关工作进一步拓展至低资源语言语音识别、零样本语音翻译及跨语言语音检索等方向,催生了系列学术论文与开源项目。这些成果不仅验证了数据集的学术价值,也为语音社区的长期发展注入了创新动力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作