five

SLPRL-HUJI/HebDB

收藏
Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/SLPRL-HUJI/HebDB
下载链接
链接失效反馈
官方服务:
资源简介:
HebDB是一个用于希伯来语语音处理的弱监督数据集,提供了大约2500小时的自然和自发希伯来语语音录音,涵盖了多种说话者和主题。数据集包括原始录音和经过预处理、弱监督和过滤的版本,旨在进一步推动希伯来语语音处理工具的研究和开发。数据变体包括`pre`和`raw`,其中`raw`仅包含`fname`、`audio`和`is_raw`列。数据集来源于六个不同的来源,包括Geekonomy、Osim History、The Dor Kahn Experience、Yo! The podcast、Good Question和Yad vashem。数据字段包括文件名、音频数据、原始文件名、起始和结束时间标记、来源名称、样本数量、转录文本、归一化转录文本和转录质量评分。

HebDB is a weakly supervised dataset for spoken language processing in the Hebrew language, offering approximately 2500 hours of natural and spontaneous speech recordings in Hebrew, consisting of a large variety of speakers and topics. The dataset provides raw recordings together with a pre-processed, weakly supervised, and filtered version, aiming to further enhance research and development of spoken language processing tools for the Hebrew language. The dataset includes multiple configurations such as `pre` and `raw`, which share the same columns to ease the usage of dataset subsets, but `raw` only uses the columns: `fname`, `audio`, and `is_raw`. The sources of the dataset include Geekonomy, Osim History, The Dor Kahn Experience, Yo! The podcast, Good Question, and Yad vashem. The dataset fields include file name, audio data, whether it is raw data, original file information, source name, number of samples, transcription text, normalized transcription text, and transcription quality score. The dataset is licensed under the Creative Commons Attribution 4.0 International License.
提供机构:
SLPRL-HUJI
原始信息汇总

HebDB 数据集概述

数据集简介

HebDB 是一个用于希伯来语语音处理的弱监督数据集,提供了大约 2500 小时的自然和自发语音录音,涵盖了多种说话人和话题。数据集包括原始录音和预处理、弱监督和过滤后的版本。

数据变体

  • pre: 预处理版本
  • raw: 原始版本

配置列表

  • pre: 包含 pre/*/*.arrow 文件
  • raw: 包含 raw/*/*.arrow 文件
  • GK: 包含 pre/geekonomy/*.arrowraw/geekonomy/*.arrow 文件
  • GK_pre: 包含 pre/geekonomy/*.arrow 文件
  • GK_raw: 包含 raw/geekonomy/*.arrow 文件
  • OH: 包含 pre/osim-history/*.arrowraw/osim-history/*.arrow 文件
  • OH_pre: 包含 pre/osim-history/*.arrow 文件
  • OH_raw: 包含 raw/osim-history/*.arrow 文件
  • DK: 包含 pre/dor/*.arrowraw/dor/*.arrow 文件
  • DK_pre: 包含 pre/dor/*.arrow 文件
  • DK_raw: 包含 raw/dor/*.arrow 文件
  • YO: 包含 pre/Yo_the_podcast/*.arrowraw/Yo_the_podcast/*.arrow 文件
  • YO_pre: 包含 pre/Yo_the_podcast/*.arrow 文件
  • YO_raw: 包含 raw/Yo_the_podcast/*.arrow 文件
  • YV: 包含 pre/Yad_vashem/*.arrowraw/Yad_vashem/*.arrow 文件
  • YV_pre: 包含 pre/Yad_vashem/*.arrow 文件
  • YV_raw: 包含 raw/Yad_vashem/*.arrow 文件

数据字段

  • fname: 文件名
  • audio:
    • array: 音频样本数组
    • sample_rate: 音频采样率
    • path: 音频文件保存路径
  • is_raw: 原始/预处理标志
  • raw:
    • fname: 原始文件名
    • start_sec: 开始时间标记(秒)
    • end_sec: 结束时间标记(秒)
  • source: 来源名称
  • n_samples: 样本数量
  • text: 转录文本
  • normalized_text: 标准化转录文本(详细信息见论文)
  • score: 转录质量评分,由强制对齐器获得(详细信息见论文)

许可信息

数据集遵循 Creative Commons Attribution 4.0 International License (CC BY 4.0) 许可。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作