M2LabOrg/jwlang
收藏Hugging Face2024-06-24 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/M2LabOrg/jwlang
下载链接
链接失效反馈官方服务:
资源简介:
JWLang Corpus是一个多语言的音频和文本数据集,源自jw.org网站上的JW Broadcasting视频,用于训练和微调自动语音识别(ASR)模型,特别是OpenAI Whisper。数据集存储在Hugging Face上,采用Parquet格式,原始音频文件为MP3格式,对应文本文件。该数据集适用于训练、验证和测试ASR模型,数据下载于2024年6月。
JWLang Corpus是一个多语言的音频和文本数据集,源自jw.org网站上的JW Broadcasting视频,用于训练和微调自动语音识别(ASR)模型,特别是OpenAI Whisper。数据集存储在Hugging Face上,采用Parquet格式,原始音频文件为MP3格式,对应文本文件。该数据集适用于训练、验证和测试ASR模型,数据下载于2024年6月。
提供机构:
M2LabOrg
原始信息汇总
JWLang Corpus 数据集概述
数据集概要
JWLang Corpus 是一个包含音频和相应文本数据的集合,源自 JW Broadcasting 视频,可在 jw.org 网站上获取。该数据集旨在用于训练和微调自动语音识别(ASR)模型,特别是 OpenAI Whisper。数据集存储在 Hugging Face 上的 Parquet 格式中,原始音频文件为 MP3 格式,并附有相应的文本文件。数据于 2024 年 6 月下载。
数据集配置
德语 (de)
- 特征:
client_id: 字符串audio: 音频sentence: 字符串language: 字符串split: 字符串
- 分割:
train: 44420148.0 字节, 949 个样本test: 5730879.0 字节, 119 个样本val: 5849167.0 字节, 119 个样本
- 下载大小: 223549840 字节
- 数据集大小: 56000194.0 字节
西班牙语 (es)
- 特征:
client_id: 字符串audio: 音频sentence: 字符串language: 字符串split: 字符串
- 分割:
train: 43155769.0 字节, 973 个样本test: 5317858.0 字节, 122 个样本val: 5350687.0 字节, 122 个样本
- 下载大小: 53591020 字节
- 数据集大小: 53824314.0 字节
法语 (fr)
- 特征:
client_id: 字符串audio: 音频sentence: 字符串language: 字符串split: 字符串
- 分割:
train: 40751557.0 字节, 939 个样本test: 5126357.0 字节, 118 个样本val: 5393533.0 字节, 117 个样本
- 下载大小: 102271952 字节
- 数据集大小: 51271447.0 字节
意大利语 (it)
- 特征:
client_id: 字符串audio: 音频sentence: 字符串language: 字符串split: 字符串
- 分割:
train: 39862874.0 字节, 779 个样本test: 5231142.0 字节, 98 个样本val: 4542215.0 字节, 97 个样本
- 下载大小: 49525612 字节
- 数据集大小: 49636231.0 字节
荷兰语 (nl)
- 特征:
client_id: 字符串audio: 音频sentence: 字符串language: 字符串split: 字符串
- 分割:
train: 42915800.0 字节, 720 个样本test: 5778737.0 字节, 91 个样本val: 5281140.0 字节, 90 个样本
- 下载大小: 53882775 字节
- 数据集大小: 53975677.0 字节
葡萄牙语 (pt)
- 特征:
client_id: 字符串audio: 音频sentence: 字符串language: 字符串split: 字符串
- 分割:
train: 45540940.152 字节, 1004 个样本test: 5906213.0 字节, 126 个样本val: 5474968.0 字节, 125 个样本
- 下载大小: 340665914 字节
- 数据集大小: 56922121.152 字节
瑞典语 (sv)
- 特征:
client_id: 字符串audio: 音频sentence: 字符串language: 字符串split: 字符串
- 分割:
train: 43664659.0 字节, 710 个样本test: 5357869.0 字节, 89 个样本val: 5420713.0 字节, 89 个样本
- 下载大小: 54362862 字节
- 数据集大小: 54443241.0 字节
使用方法
要加载和使用数据集: python from datasets import load_dataset
dataset = load_dataset("M2LabOrg/jwlang")
示例数据
数据集中的示例文本片段: json { "audio": "path/to/audio.mp3", "text": "Example subtitle text." }
许可证
该数据集为私有,仅供内部使用。
引用
如果您使用此数据集,请引用:
@article{jwlang_corpus, title={JWLang Corpus from jw.org Videos for ASR Training}, author={Michel Mesquita}, journal={Unpublished}, year={2024}, note={Data downloaded from jw.org in June 2024 and processed by M. Mesquita} }
联系
如有任何问题或疑问,请联系 Michel Mesquita。



