M2LabOrg/jwlang

Name: M2LabOrg/jwlang
Creator: M2LabOrg
Published: 2024-06-24 08:24:41
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/M2LabOrg/jwlang

下载链接

链接失效反馈

官方服务：

资源简介：

JWLang Corpus是一个多语言的音频和文本数据集，源自jw.org网站上的JW Broadcasting视频，用于训练和微调自动语音识别（ASR）模型，特别是OpenAI Whisper。数据集存储在Hugging Face上，采用Parquet格式，原始音频文件为MP3格式，对应文本文件。该数据集适用于训练、验证和测试ASR模型，数据下载于2024年6月。

提供机构：

M2LabOrg

原始信息汇总

JWLang Corpus 数据集概述

数据集概要

JWLang Corpus 是一个包含音频和相应文本数据的集合，源自 JW Broadcasting 视频，可在 jw.org 网站上获取。该数据集旨在用于训练和微调自动语音识别（ASR）模型，特别是 OpenAI Whisper。数据集存储在 Hugging Face 上的 Parquet 格式中，原始音频文件为 MP3 格式，并附有相应的文本文件。数据于 2024 年 6 月下载。

数据集配置

德语 (de)

特征:
- client_id: 字符串
- audio: 音频
- sentence: 字符串
- language: 字符串
- split: 字符串
分割:
- train: 44420148.0 字节, 949 个样本
- test: 5730879.0 字节, 119 个样本
- val: 5849167.0 字节, 119 个样本
下载大小: 223549840 字节
数据集大小: 56000194.0 字节

西班牙语 (es)

特征:
- client_id: 字符串
- audio: 音频
- sentence: 字符串
- language: 字符串
- split: 字符串
分割:
- train: 43155769.0 字节, 973 个样本
- test: 5317858.0 字节, 122 个样本
- val: 5350687.0 字节, 122 个样本
下载大小: 53591020 字节
数据集大小: 53824314.0 字节

法语 (fr)

特征:
- client_id: 字符串
- audio: 音频
- sentence: 字符串
- language: 字符串
- split: 字符串
分割:
- train: 40751557.0 字节, 939 个样本
- test: 5126357.0 字节, 118 个样本
- val: 5393533.0 字节, 117 个样本
下载大小: 102271952 字节
数据集大小: 51271447.0 字节

意大利语 (it)

特征:
- client_id: 字符串
- audio: 音频
- sentence: 字符串
- language: 字符串
- split: 字符串
分割:
- train: 39862874.0 字节, 779 个样本
- test: 5231142.0 字节, 98 个样本
- val: 4542215.0 字节, 97 个样本
下载大小: 49525612 字节
数据集大小: 49636231.0 字节

荷兰语 (nl)

特征:
- client_id: 字符串
- audio: 音频
- sentence: 字符串
- language: 字符串
- split: 字符串
分割:
- train: 42915800.0 字节, 720 个样本
- test: 5778737.0 字节, 91 个样本
- val: 5281140.0 字节, 90 个样本
下载大小: 53882775 字节
数据集大小: 53975677.0 字节

葡萄牙语 (pt)

特征:
- client_id: 字符串
- audio: 音频
- sentence: 字符串
- language: 字符串
- split: 字符串
分割:
- train: 45540940.152 字节, 1004 个样本
- test: 5906213.0 字节, 126 个样本
- val: 5474968.0 字节, 125 个样本
下载大小: 340665914 字节
数据集大小: 56922121.152 字节

瑞典语 (sv)

特征:
- client_id: 字符串
- audio: 音频
- sentence: 字符串
- language: 字符串
- split: 字符串
分割:
- train: 43664659.0 字节, 710 个样本
- test: 5357869.0 字节, 89 个样本
- val: 5420713.0 字节, 89 个样本
下载大小: 54362862 字节
数据集大小: 54443241.0 字节

使用方法

要加载和使用数据集： python from datasets import load_dataset

dataset = load_dataset("M2LabOrg/jwlang")

示例数据

数据集中的示例文本片段： json { "audio": "path/to/audio.mp3", "text": "Example subtitle text." }

许可证

该数据集为私有，仅供内部使用。

引用

如果您使用此数据集，请引用：

@article{jwlang_corpus, title={JWLang Corpus from jw.org Videos for ASR Training}, author={Michel Mesquita}, journal={Unpublished}, year={2024}, note={Data downloaded from jw.org in June 2024 and processed by M. Mesquita} }

联系

如有任何问题或疑问，请联系 Michel Mesquita。

5,000+

优质数据集

54 个

任务类型

进入经典数据集