five

M2LabOrg/jwlang

收藏
Hugging Face2024-06-24 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/M2LabOrg/jwlang
下载链接
链接失效反馈
官方服务:
资源简介:
JWLang Corpus是一个多语言的音频和文本数据集,源自jw.org网站上的JW Broadcasting视频,用于训练和微调自动语音识别(ASR)模型,特别是OpenAI Whisper。数据集存储在Hugging Face上,采用Parquet格式,原始音频文件为MP3格式,对应文本文件。该数据集适用于训练、验证和测试ASR模型,数据下载于2024年6月。

JWLang Corpus是一个多语言的音频和文本数据集,源自jw.org网站上的JW Broadcasting视频,用于训练和微调自动语音识别(ASR)模型,特别是OpenAI Whisper。数据集存储在Hugging Face上,采用Parquet格式,原始音频文件为MP3格式,对应文本文件。该数据集适用于训练、验证和测试ASR模型,数据下载于2024年6月。
提供机构:
M2LabOrg
原始信息汇总

JWLang Corpus 数据集概述

数据集概要

JWLang Corpus 是一个包含音频和相应文本数据的集合,源自 JW Broadcasting 视频,可在 jw.org 网站上获取。该数据集旨在用于训练和微调自动语音识别(ASR)模型,特别是 OpenAI Whisper。数据集存储在 Hugging Face 上的 Parquet 格式中,原始音频文件为 MP3 格式,并附有相应的文本文件。数据于 2024 年 6 月下载。

数据集配置

德语 (de)

  • 特征:
    • client_id: 字符串
    • audio: 音频
    • sentence: 字符串
    • language: 字符串
    • split: 字符串
  • 分割:
    • train: 44420148.0 字节, 949 个样本
    • test: 5730879.0 字节, 119 个样本
    • val: 5849167.0 字节, 119 个样本
  • 下载大小: 223549840 字节
  • 数据集大小: 56000194.0 字节

西班牙语 (es)

  • 特征:
    • client_id: 字符串
    • audio: 音频
    • sentence: 字符串
    • language: 字符串
    • split: 字符串
  • 分割:
    • train: 43155769.0 字节, 973 个样本
    • test: 5317858.0 字节, 122 个样本
    • val: 5350687.0 字节, 122 个样本
  • 下载大小: 53591020 字节
  • 数据集大小: 53824314.0 字节

法语 (fr)

  • 特征:
    • client_id: 字符串
    • audio: 音频
    • sentence: 字符串
    • language: 字符串
    • split: 字符串
  • 分割:
    • train: 40751557.0 字节, 939 个样本
    • test: 5126357.0 字节, 118 个样本
    • val: 5393533.0 字节, 117 个样本
  • 下载大小: 102271952 字节
  • 数据集大小: 51271447.0 字节

意大利语 (it)

  • 特征:
    • client_id: 字符串
    • audio: 音频
    • sentence: 字符串
    • language: 字符串
    • split: 字符串
  • 分割:
    • train: 39862874.0 字节, 779 个样本
    • test: 5231142.0 字节, 98 个样本
    • val: 4542215.0 字节, 97 个样本
  • 下载大小: 49525612 字节
  • 数据集大小: 49636231.0 字节

荷兰语 (nl)

  • 特征:
    • client_id: 字符串
    • audio: 音频
    • sentence: 字符串
    • language: 字符串
    • split: 字符串
  • 分割:
    • train: 42915800.0 字节, 720 个样本
    • test: 5778737.0 字节, 91 个样本
    • val: 5281140.0 字节, 90 个样本
  • 下载大小: 53882775 字节
  • 数据集大小: 53975677.0 字节

葡萄牙语 (pt)

  • 特征:
    • client_id: 字符串
    • audio: 音频
    • sentence: 字符串
    • language: 字符串
    • split: 字符串
  • 分割:
    • train: 45540940.152 字节, 1004 个样本
    • test: 5906213.0 字节, 126 个样本
    • val: 5474968.0 字节, 125 个样本
  • 下载大小: 340665914 字节
  • 数据集大小: 56922121.152 字节

瑞典语 (sv)

  • 特征:
    • client_id: 字符串
    • audio: 音频
    • sentence: 字符串
    • language: 字符串
    • split: 字符串
  • 分割:
    • train: 43664659.0 字节, 710 个样本
    • test: 5357869.0 字节, 89 个样本
    • val: 5420713.0 字节, 89 个样本
  • 下载大小: 54362862 字节
  • 数据集大小: 54443241.0 字节

使用方法

要加载和使用数据集: python from datasets import load_dataset

dataset = load_dataset("M2LabOrg/jwlang")

示例数据

数据集中的示例文本片段: json { "audio": "path/to/audio.mp3", "text": "Example subtitle text." }

许可证

该数据集为私有,仅供内部使用。

引用

如果您使用此数据集,请引用:

@article{jwlang_corpus, title={JWLang Corpus from jw.org Videos for ASR Training}, author={Michel Mesquita}, journal={Unpublished}, year={2024}, note={Data downloaded from jw.org in June 2024 and processed by M. Mesquita} }

联系

如有任何问题或疑问,请联系 Michel Mesquita

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作