amu-cai/pl-asr-bigos-v2
收藏数据集卡片:波兰语ASR BIGOS语料库
数据集描述
数据集摘要
BIGOS(Benchmark Intended Grouping of Open Speech)语料库旨在简化公开可用的波兰语自动语音识别(ASR)语音数据集的访问和使用。
支持的任务和排行榜
计划于2024年进行使用BIGOS语料库的PL ASR系统的持续基准测试和排行榜。
语言
波兰语
数据集结构
数据集由WAV格式的音频录音和相应的元数据组成。音频和元数据可以以原始格式(TSV)或通过Hugging Face数据集库使用。测试分割的参考将在2024年PolEval挑战完成后提供。
数据实例
- 训练集包含82,025个样本
- 开发集包含14,254个样本
- 测试集包含14,993个样本
数据字段
可用字段包括:
audioname- 文件标识符split- 测试、验证或训练分割dataset- 源数据集标识符ref_orig- 音频文件的原始转录audio- HF数据集对象,包含音频文件的二进制表示samplingrate_orig- 原始录音的采样率sampling_rate- 发布中的录音采样率audio_duration_samples- 录音的样本时长audio_duration_seconds- 录音的秒时长audiopath_bigos- 从tar.gz存档中提取的音频文件的相对文件路径audiopath_local- 使用构建脚本提取的音频文件的绝对文件路径speaker_gender- 说话者的性别(从源元数据中提取,如果不可用则为N/A)speaker_age- 说话者的年龄组(以CommonVoice格式从源中提取,如果不可用则为N/A)utt_length_words- 话语的单词长度utt_length_chars- 话语的字符长度speech_rate_words- 单词与录音时长的比率speech_rate_chars- 字符与录音时长的比率
数据分割
- 训练分割包含用于训练的录音
- 验证分割包含用于训练过程中验证的录音
- 测试分割包含仅用于评估的录音
测试分割的参考在2024年PolEval挑战完成之前不可用。
数据集创建
策划理由
使用波兰语ASR语音数据目录识别适合重新利用并包含在BIGOS语料库中的数据集。考虑了以下强制性标准:
- 数据集必须可下载
- 许可证必须允许免费、非商业用途
- 转录必须可用并与录音对齐
- 音频录音的采样率必须至少为8 kHz
- 音频编码使用至少16位每样本
在策划过程中,删除了缺乏转录或太短而无法用于训练或评估的录音。
源数据
选择了12个符合标准的数据集作为BIGOS数据集的来源:
- Common Voice数据集版本15(mozilla-common_voice_15-23)
- 多语言LibriSpeech(MLS)数据集(fair-mls-20)
- Clarin Studio Corpus(pjatk-clarin_studio-15)
- Clarin Mobile Corpus(pjatk-clarin_mobile-15)
- Jerzy Sas PWR数据集(pwr-viu-unk, pwr-shortwords-unk, pwr-maleset-unk)
- Munich-AI Labs Speech corpus(mailabs-corpus-librivox-19)
- AZON Read和Spontaneous Speech Corpora(pwr-azon_spont-20, pwr-azon_read-20)
- Google FLEURS数据集(google-fleurs-22)
- PolyAI minds14数据集(polyai-minds14-21)
初始数据收集和规范化
源文本和音频文件被提取并以统一格式编码。保留了数据集特定的转录规范,包括标点符号和大小写。如果原始数据集没有提供测试、开发、训练分割,则在策划过程中伪随机生成分割。
源语言生产者
- Clarin corpora - 波兰日本技术学院
- Common Voice - Mozilla基金会
- 多语言LibriSpeech - Facebook AI研究实验室
- Jerzy Sas和AZON数据集 - 波兰技术大学
- Google - FLEURS
- PolyAI伦敦 - Minds14
注释
注释过程
当前版本包含原始转录。计划在后续版本中手动转录子集并发布诊断数据集。
注释者
取决于源数据集。
个人和敏感信息
该语料库不包含个人身份信息(PII)或敏感信息。所有说话者ID均已匿名化。
使用数据的注意事项
数据集的社会影响
待更新。
偏见讨论
待更新。
其他已知限制
初始版本的数据集仅包含原始数据集的一部分录音。
附加信息
数据集策展人
源数据集的原始作者 - 请参阅源数据了解详情。
Michał Junczyk(michal.junczyk@amu.edu.pl)- BIGOS语料库的策展人。
许可信息
BIGOS语料库根据Creative Commons By Attribution Share Alike 4.0许可证提供。
用于策划BIGOS的原始数据集有特定的使用条款,必须在




