five

amu-cai/pl-asr-bigos-v2

收藏
Hugging Face2024-05-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/amu-cai/pl-asr-bigos-v2
下载链接
链接失效反馈
官方服务:
资源简介:
BIGOS(Benchmark Intended Grouping of Open Speech)语料库旨在简化和统一波兰语自动语音识别(ASR)数据集的访问和使用。该数据集包含来自多个公开数据集的音频录音和相应的元数据,适用于波兰语ASR任务。数据集的结构包括训练集、验证集和测试集,分别包含82,025、14,254和14,993个样本。数据字段包括音频文件名、分割类型、数据集来源、原始转录、音频对象、采样率、音频时长、说话者性别和年龄等信息。数据集的创建基于12个符合特定标准的公开数据集,包括Common Voice、Multilingual LibriSpeech、Clarin Studio Corpus等。数据集的使用受Creative Commons By Attribution Share Alike 4.0许可证的约束,且原始数据集的使用需遵守各自的许可条款。

BIGOS(Benchmark Intended Grouping of Open Speech)语料库旨在简化和统一波兰语自动语音识别(ASR)数据集的访问和使用。该数据集包含来自多个公开数据集的音频录音和相应的元数据,适用于波兰语ASR任务。数据集的结构包括训练集、验证集和测试集,分别包含82,025、14,254和14,993个样本。数据字段包括音频文件名、分割类型、数据集来源、原始转录、音频对象、采样率、音频时长、说话者性别和年龄等信息。数据集的创建基于12个符合特定标准的公开数据集,包括Common Voice、Multilingual LibriSpeech、Clarin Studio Corpus等。数据集的使用受Creative Commons By Attribution Share Alike 4.0许可证的约束,且原始数据集的使用需遵守各自的许可条款。
提供机构:
amu-cai
原始信息汇总

数据集卡片:波兰语ASR BIGOS语料库

数据集描述

数据集摘要

BIGOS(Benchmark Intended Grouping of Open Speech)语料库旨在简化公开可用的波兰语自动语音识别(ASR)语音数据集的访问和使用。

支持的任务和排行榜

  • 使用BIGOS V2和PELCRA for BIGOS数据集的开放波兰语ASR挑战PolEval
  • 评估3个商业和5个免费可用的PL ASR系统,使用BIGOS V1

计划于2024年进行使用BIGOS语料库的PL ASR系统的持续基准测试和排行榜。

语言

波兰语

数据集结构

数据集由WAV格式的音频录音和相应的元数据组成。音频和元数据可以以原始格式(TSV)或通过Hugging Face数据集库使用。测试分割的参考将在2024年PolEval挑战完成后提供。

数据实例

  • 训练集包含82,025个样本
  • 开发集包含14,254个样本
  • 测试集包含14,993个样本

数据字段

可用字段包括:

  • audioname - 文件标识符
  • split - 测试、验证或训练分割
  • dataset - 源数据集标识符
  • ref_orig - 音频文件的原始转录
  • audio - HF数据集对象,包含音频文件的二进制表示
  • samplingrate_orig - 原始录音的采样率
  • sampling_rate - 发布中的录音采样率
  • audio_duration_samples - 录音的样本时长
  • audio_duration_seconds - 录音的秒时长
  • audiopath_bigos - 从tar.gz存档中提取的音频文件的相对文件路径
  • audiopath_local - 使用构建脚本提取的音频文件的绝对文件路径
  • speaker_gender - 说话者的性别(从源元数据中提取,如果不可用则为N/A)
  • speaker_age - 说话者的年龄组(以CommonVoice格式从源中提取,如果不可用则为N/A)
  • utt_length_words - 话语的单词长度
  • utt_length_chars - 话语的字符长度
  • speech_rate_words - 单词与录音时长的比率
  • speech_rate_chars - 字符与录音时长的比率

数据分割

  • 训练分割包含用于训练的录音
  • 验证分割包含用于训练过程中验证的录音
  • 测试分割包含仅用于评估的录音

测试分割的参考在2024年PolEval挑战完成之前不可用。

数据集创建

策划理由

使用波兰语ASR语音数据目录识别适合重新利用并包含在BIGOS语料库中的数据集。考虑了以下强制性标准:

  • 数据集必须可下载
  • 许可证必须允许免费、非商业用途
  • 转录必须可用并与录音对齐
  • 音频录音的采样率必须至少为8 kHz
  • 音频编码使用至少16位每样本

在策划过程中,删除了缺乏转录或太短而无法用于训练或评估的录音。

源数据

选择了12个符合标准的数据集作为BIGOS数据集的来源:

  • Common Voice数据集版本15(mozilla-common_voice_15-23)
  • 多语言LibriSpeech(MLS)数据集(fair-mls-20)
  • Clarin Studio Corpus(pjatk-clarin_studio-15)
  • Clarin Mobile Corpus(pjatk-clarin_mobile-15)
  • Jerzy Sas PWR数据集(pwr-viu-unk, pwr-shortwords-unk, pwr-maleset-unk)
  • Munich-AI Labs Speech corpus(mailabs-corpus-librivox-19)
  • AZON Read和Spontaneous Speech Corpora(pwr-azon_spont-20, pwr-azon_read-20)
  • Google FLEURS数据集(google-fleurs-22)
  • PolyAI minds14数据集(polyai-minds14-21)

初始数据收集和规范化

源文本和音频文件被提取并以统一格式编码。保留了数据集特定的转录规范,包括标点符号和大小写。如果原始数据集没有提供测试、开发、训练分割,则在策划过程中伪随机生成分割。

源语言生产者

  1. Clarin corpora - 波兰日本技术学院
  2. Common Voice - Mozilla基金会
  3. 多语言LibriSpeech - Facebook AI研究实验室
  4. Jerzy Sas和AZON数据集 - 波兰技术大学
  5. Google - FLEURS
  6. PolyAI伦敦 - Minds14

注释

注释过程

当前版本包含原始转录。计划在后续版本中手动转录子集并发布诊断数据集。

注释者

取决于源数据集。

个人和敏感信息

该语料库不包含个人身份信息(PII)或敏感信息。所有说话者ID均已匿名化。

使用数据的注意事项

数据集的社会影响

待更新。

偏见讨论

待更新。

其他已知限制

初始版本的数据集仅包含原始数据集的一部分录音。

附加信息

数据集策展人

源数据集的原始作者 - 请参阅源数据了解详情。

Michał Junczyk(michal.junczyk@amu.edu.pl)- BIGOS语料库的策展人。

许可信息

BIGOS语料库根据Creative Commons By Attribution Share Alike 4.0许可证提供。

用于策划BIGOS的原始数据集有特定的使用条款,必须在

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是波兰语自动语音识别(ASR)的基准集合,名为BIGOS V2,由亚当·密茨凯维奇大学人工智能中心创建,旨在整合和简化公开波兰语ASR数据集的访问。它包含约11万个音频样本(WAV格式),基于12个来源数据集(如Common Voice、Multilingual LibriSpeech)构建,提供标准化的元数据和转录,支持ASR模型的训练与评估,遵循CC BY-SA 4.0许可证,但使用需满足原始数据集的许可要求。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作