jwlang

Hugging Face2024-06-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/M2LabOrg/jwlang

下载链接

链接失效反馈

官方服务：

资源简介：

JWLang Corpus是一个包含来自jw.org网站的JW Broadcasting视频的音频和相应文本数据的数据集。它专为训练和微调自动语音识别（ASR）模型，特别是OpenAI Whisper而设计。数据集包含10,000个样本，格式为WAV音频和SRT文本，总大小为5GB，分为8,000个训练样本、1,000个验证样本和1,000个测试样本。

JWLang Corpus is a dataset containing audio and corresponding text data from JW Broadcasting videos sourced from the jw.org website. It is specifically designed for training and fine-tuning automatic speech recognition (ASR) models, especially OpenAI Whisper. The dataset includes a total of 10,000 samples in WAV audio and SRT text formats, with an overall size of 5GB, and is split into 8,000 training samples, 1,000 validation samples, and 1,000 test samples.

创建时间：

2024-06-18

原始信息汇总

JWLang Corpus 数据集概述

数据集总结

JWLang Corpus 是一个包含音频和相应文本数据的集合，源自 JW Broadcasting 视频，可在 jw.org 网站上获取。该数据集旨在用于训练和微调自动语音识别（ASR）模型，特别是 OpenAI Whisper。数据集存储在 Hugging Face 上的 Parquet 格式中，原始音频文件为 MP3 格式，相应的文本文件。数据于 2024 年 6 月下载。

数据集配置

数据集包含以下语言配置：

德语（de）
西班牙语（es）
法语（fr）
意大利语（it）
荷兰语（nl）
葡萄牙语（pt）
瑞典语（sv）

数据集特征

每个语言配置包含以下特征：

client_id: 字符串类型
audio: 音频类型
sentence: 字符串类型
language: 字符串类型
split: 字符串类型

数据集分割

每个语言配置包含以下分割：

train: 训练集
test: 测试集
val: 验证集

数据集大小

每个语言配置的数据集大小如下：

德语（de）

下载大小: 223549840 字节
数据集大小: 56000194.0 字节
训练集: 44420148.0 字节, 949 个样本
测试集: 5730879.0 字节, 119 个样本
验证集: 5849167.0 字节, 119 个样本

西班牙语（es）

下载大小: 53591020 字节
数据集大小: 53824314.0 字节
训练集: 43155769.0 字节, 973 个样本
测试集: 5317858.0 字节, 122 个样本
验证集: 5350687.0 字节, 122 个样本

法语（fr）

下载大小: 102271952 字节
数据集大小: 51271447.0 字节
训练集: 40751557.0 字节, 939 个样本
测试集: 5126357.0 字节, 118 个样本
验证集: 5393533.0 字节, 117 个样本

意大利语（it）

下载大小: 49525612 字节
数据集大小: 49636231.0 字节
训练集: 39862874.0 字节, 779 个样本
测试集: 5231142.0 字节, 98 个样本
验证集: 4542215.0 字节, 97 个样本

荷兰语（nl）

下载大小: 53882775 字节
数据集大小: 53975677.0 字节
训练集: 42915800.0 字节, 720 个样本
测试集: 5778737.0 字节, 91 个样本
验证集: 5281140.0 字节, 90 个样本

葡萄牙语（pt）

下载大小: 340665914 字节
数据集大小: 56922121.152 字节
训练集: 45540940.152 字节, 1004 个样本
测试集: 5906213.0 字节, 126 个样本
验证集: 5474968.0 字节, 125 个样本

瑞典语（sv）

下载大小: 54362862 字节
数据集大小: 54443241.0 字节
训练集: 43664659.0 字节, 710 个样本
测试集: 5357869.0 字节, 89 个样本
验证集: 5420713.0 字节, 89 个样本

数据集使用

加载和使用数据集的示例代码： python from datasets import load_dataset

dataset = load_dataset("M2LabOrg/jwlang")

示例数据

数据集中的示例文本片段： json { "audio": "path/to/audio.mp3", "text": "Example subtitle text." }

许可证

该数据集是私有的，仅供内部使用。

引用

如果使用此数据集，请引用：

@article{jwlang_corpus, title={JWLang Corpus from jw.org Videos for ASR Training}, author={Michel Mesquita}, journal={Unpublished}, year={2024}, note={Data downloaded from jw.org in June 2024 and processed by M. Mesquita} }

联系

如有任何问题或疑问，请联系 Michel Mesquita。

搜集汇总

数据集介绍

构建方式

JWLang Corpus数据集的构建基于JW Broadcasting视频中的音频及其对应的文本数据，这些视频来源于jw.org网站。数据采集于2024年6月，音频文件以MP3格式存储，文本数据则与音频文件一一对应。数据集以Parquet格式存储在Hugging Face平台上，旨在为自动语音识别（ASR）模型的训练与微调提供支持，特别是针对OpenAI Whisper模型。

特点

JWLang Corpus数据集涵盖了多种语言，包括葡萄牙语、德语、法语、瑞典语、意大利语、西班牙语和荷兰语，具有高度的多语言特性。每个语言配置均包含训练集、验证集和测试集，确保了数据集的完整性和实用性。数据集中的每条记录包含音频文件路径、对应的文本内容、语言标识以及数据分割信息，结构清晰且易于处理。

使用方法

使用JWLang Corpus数据集时，可以通过Hugging Face的`datasets`库进行加载。用户只需调用`load_dataset`函数并指定数据集名称即可获取数据。加载后的数据集可直接用于自动语音识别模型的训练与评估。示例代码展示了如何加载数据集并访问其中的音频与文本数据，便于用户快速上手并进行进一步的研究与应用。

背景与挑战

背景概述

JWLang语料库是一个多语言音频与文本数据集，源自JW Broadcasting视频，旨在为自动语音识别（ASR）模型的训练与微调提供支持，特别是针对OpenAI的Whisper模型。该数据集由M2LabOrg于2024年创建，主要研究人员为Michel Mesquita。其数据来源于jw.org网站，涵盖了葡萄牙语、德语、法语、瑞典语、意大利语、西班牙语和荷兰语等多种语言。该数据集的发布为多语言语音识别研究提供了重要的资源，尤其在跨语言语音处理领域具有显著的影响力。

当前挑战

JWLang语料库的构建面临多重挑战。首先，多语言数据的采集与对齐需要克服语言差异带来的技术难题，尤其是在音频与文本的同步处理上。其次，数据来源的多样性可能导致音频质量与文本标注的不一致性，这对模型的训练效果提出了更高要求。此外，数据集的隐私性限制了其公开使用范围，可能影响其在更广泛研究中的应用。最后，尽管数据集覆盖了多种语言，但每种语言的样本量相对有限，可能对模型的泛化能力产生一定影响。

常用场景

经典使用场景

JWLang Corpus 数据集在自动语音识别（ASR）领域具有广泛的应用，尤其是在多语言语音识别模型的训练与微调中。该数据集包含了来自JW Broadcasting视频的音频及其对应的文本数据，涵盖了多种语言，如葡萄牙语、德语、法语等。研究人员可以利用这些数据来训练和优化ASR模型，特别是针对OpenAI Whisper模型的性能提升。通过提供高质量的音频与文本对，JWLang Corpus 为多语言语音识别任务提供了坚实的基础。

衍生相关工作

JWLang Corpus 数据集已经催生了一系列相关研究工作，特别是在多语言语音识别模型的优化与迁移学习领域。基于该数据集的研究成果包括跨语言语音识别模型的性能提升、低资源语言环境下的模型训练策略优化等。此外，该数据集还为语音识别领域的开源社区提供了宝贵的数据资源，推动了多语言语音识别技术的进一步发展。

数据集最近研究