amu-cai/pl-asr-bigos-v2

Name: amu-cai/pl-asr-bigos-v2
Creator: amu-cai
Published: 2024-05-12 21:47:05
License: 暂无描述

Hugging Face2024-05-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/amu-cai/pl-asr-bigos-v2

下载链接

链接失效反馈

官方服务：

资源简介：

BIGOS（Benchmark Intended Grouping of Open Speech）语料库旨在简化和统一波兰语自动语音识别（ASR）数据集的访问和使用。该数据集包含来自多个公开数据集的音频录音和相应的元数据，适用于波兰语ASR任务。数据集的结构包括训练集、验证集和测试集，分别包含82,025、14,254和14,993个样本。数据字段包括音频文件名、分割类型、数据集来源、原始转录、音频对象、采样率、音频时长、说话者性别和年龄等信息。数据集的创建基于12个符合特定标准的公开数据集，包括Common Voice、Multilingual LibriSpeech、Clarin Studio Corpus等。数据集的使用受Creative Commons By Attribution Share Alike 4.0许可证的约束，且原始数据集的使用需遵守各自的许可条款。

提供机构：

amu-cai

原始信息汇总

数据集卡片：波兰语ASR BIGOS语料库

数据集描述

数据集摘要

BIGOS（Benchmark Intended Grouping of Open Speech）语料库旨在简化公开可用的波兰语自动语音识别（ASR）语音数据集的访问和使用。

支持的任务和排行榜

使用BIGOS V2和PELCRA for BIGOS数据集的开放波兰语ASR挑战PolEval
评估3个商业和5个免费可用的PL ASR系统，使用BIGOS V1

计划于2024年进行使用BIGOS语料库的PL ASR系统的持续基准测试和排行榜。

语言

波兰语

数据集结构

数据集由WAV格式的音频录音和相应的元数据组成。音频和元数据可以以原始格式（TSV）或通过Hugging Face数据集库使用。测试分割的参考将在2024年PolEval挑战完成后提供。

数据实例

训练集包含82,025个样本
开发集包含14,254个样本
测试集包含14,993个样本

数据字段

可用字段包括：

audioname - 文件标识符
split - 测试、验证或训练分割
dataset - 源数据集标识符
ref_orig - 音频文件的原始转录
audio - HF数据集对象，包含音频文件的二进制表示
samplingrate_orig - 原始录音的采样率
sampling_rate - 发布中的录音采样率
audio_duration_samples - 录音的样本时长
audio_duration_seconds - 录音的秒时长
audiopath_bigos - 从tar.gz存档中提取的音频文件的相对文件路径
audiopath_local - 使用构建脚本提取的音频文件的绝对文件路径
speaker_gender - 说话者的性别（从源元数据中提取，如果不可用则为N/A）
speaker_age - 说话者的年龄组（以CommonVoice格式从源中提取，如果不可用则为N/A）
utt_length_words - 话语的单词长度
utt_length_chars - 话语的字符长度
speech_rate_words - 单词与录音时长的比率
speech_rate_chars - 字符与录音时长的比率

数据分割

训练分割包含用于训练的录音
验证分割包含用于训练过程中验证的录音
测试分割包含仅用于评估的录音

测试分割的参考在2024年PolEval挑战完成之前不可用。

数据集创建

策划理由

使用波兰语ASR语音数据目录识别适合重新利用并包含在BIGOS语料库中的数据集。考虑了以下强制性标准：

数据集必须可下载
许可证必须允许免费、非商业用途
转录必须可用并与录音对齐
音频录音的采样率必须至少为8 kHz
音频编码使用至少16位每样本

在策划过程中，删除了缺乏转录或太短而无法用于训练或评估的录音。

源数据

选择了12个符合标准的数据集作为BIGOS数据集的来源：

Common Voice数据集版本15（mozilla-common_voice_15-23）
多语言LibriSpeech（MLS）数据集（fair-mls-20）
Clarin Studio Corpus（pjatk-clarin_studio-15）
Clarin Mobile Corpus（pjatk-clarin_mobile-15）
Jerzy Sas PWR数据集（pwr-viu-unk, pwr-shortwords-unk, pwr-maleset-unk）
Munich-AI Labs Speech corpus（mailabs-corpus-librivox-19）
AZON Read和Spontaneous Speech Corpora（pwr-azon_spont-20, pwr-azon_read-20）
Google FLEURS数据集（google-fleurs-22）
PolyAI minds14数据集（polyai-minds14-21）

初始数据收集和规范化

源文本和音频文件被提取并以统一格式编码。保留了数据集特定的转录规范，包括标点符号和大小写。如果原始数据集没有提供测试、开发、训练分割，则在策划过程中伪随机生成分割。

源语言生产者

Clarin corpora - 波兰日本技术学院
Common Voice - Mozilla基金会
多语言LibriSpeech - Facebook AI研究实验室
Jerzy Sas和AZON数据集 - 波兰技术大学
Google - FLEURS
PolyAI伦敦 - Minds14

注释

注释过程

当前版本包含原始转录。计划在后续版本中手动转录子集并发布诊断数据集。

注释者

取决于源数据集。

个人和敏感信息

该语料库不包含个人身份信息（PII）或敏感信息。所有说话者ID均已匿名化。

使用数据的注意事项

数据集的社会影响

待更新。

偏见讨论

待更新。

其他已知限制

初始版本的数据集仅包含原始数据集的一部分录音。

附加信息

数据集策展人

源数据集的原始作者 - 请参阅源数据了解详情。

Michał Junczyk（michal.junczyk@amu.edu.pl）- BIGOS语料库的策展人。

许可信息

BIGOS语料库根据Creative Commons By Attribution Share Alike 4.0许可证提供。

用于策划BIGOS的原始数据集有特定的使用条款，必须在

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是波兰语自动语音识别（ASR）的基准集合，名为BIGOS V2，由亚当·密茨凯维奇大学人工智能中心创建，旨在整合和简化公开波兰语ASR数据集的访问。它包含约11万个音频样本（WAV格式），基于12个来源数据集（如Common Voice、Multilingual LibriSpeech）构建，提供标准化的元数据和转录，支持ASR模型的训练与评估，遵循CC BY-SA 4.0许可证，但使用需满足原始数据集的许可要求。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集