gigaspeech2|自动语音识别数据集|低资源语言数据集
收藏数据集卡片 for GigaSpeech 2
数据集描述
GigaSpeech 2 是一个不断发展的大规模、多领域、多语言的自动语音识别(ASR)语料库,专注于低资源语言。GigaSpeech 2 原始版本包含约 30,000 小时的自动转录语音,涵盖泰语、印尼语和越南语。GigaSpeech 2 精炼版本包含 10,000 小时的泰语、6,000 小时的印尼语和越南语。
支持的任务和排行榜
automatic-speech-recognition:该数据集可用于训练自动语音识别(ASR)模型。模型接收音频文件并将其转录为书面文本。评估指标包括泰语的字符错误率(CER)和印尼语及越南语的词错误率(WER)。任务有一个活跃的排行榜,可以在 这里 找到,并根据 WER 对模型进行排名。
语言
GigaSpeech 2 包含泰语、印尼语和越南语的音频和转录数据。
数据集结构
数据实例
shell Audio file (.wav): Channels: 1 Sample Rate: 16000 Sample Encoding: 16-bit Signed Integer PCM
Transcript file (.tsv): <segment_id> <text>
数据字段
- segment_id (string) - 段落的字符串 ID。
- text (string) - 段落的转录文本。
数据分割
数据集包含每个语言的三个子集:训练集(train)、开发集(dev)和测试集(test)。训练集有两种配置:原始(raw)和精炼(refined)。train_raw 包含 train_refined 的所有数据。
转录训练子集大小
| 泰语(小时) | 印尼语(小时) | 越南语(小时) | |
|---|---|---|---|
| GigaSpeech 2 raw | 12901.8 | 8112.9 | 7324.0 |
| GigaSpeech 2 refined | 10262.0 | 5714.0 | 6039.0 |
GigaSpeech 2 raw 包含 GigaSpeech 2 refined 的所有数据。
转录评估子集
| 泰语(小时) | 印尼语(小时) | 越南语(小时) | |
|---|---|---|---|
| GigaSpeech 2 dev | 10.0 | 10.0 | 10.2 |
| GigaSpeech 2 test | 10.0 | 10.0 | 11.0 |
数据集创建
源数据
- GigaSpeech 2 raw:30,000 小时的自动转录语音,涵盖泰语、印尼语和越南语。
- GigaSpeech 2 refined:10,000 小时的泰语、6,000 小时的印尼语和越南语。
- GigaSpeech 2 DEV & TEST:每个语言的 DEV 和 TEST 各 10 小时,由专业人工标注者转录,具有挑战性和现实性。
标注
标注者是谁?
开发(DEV)和测试(TEST)子集由专业人工标注者标注。
许可信息
SpeechColab 不拥有音频文件的版权。对于希望将音频文件用于非商业研究和/或教育目的的研究人员和教育工作者,我们可以在特定条件和条款下通过我们的网站提供访问权限。
引用信息
如果您发现此工作有用,请引用此论文:
bibtext @article{gigaspeech2, title={GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement}, author={Yifan Yang and Zheshu Song and Jianheng Zhuo and Mingyu Cui and Jinpeng Li and Bo Yang and Yexing Du and Ziyang Ma and Xunying Liu and Ziyuan Wang and Ke Li and Shuai Fan and Kai Yu and Wei-Qiang Zhang and Guoguo Chen and Xie Chen}, journal={arXiv preprint arXiv:2406.11546}, year={2024}, }
访问条款
研究人员已请求使用清华大学 GigaSpeech 2 数据库(“数据库”)的权限。作为交换,研究人员同意以下条款和条件:
- 研究人员仅可将数据库用于非商业研究和教育目的。
- SpeechColab 团队和清华大学对数据库不做任何陈述或保证,包括但不限于非侵权或适合特定目的的保证。
- 研究人员对其使用数据库承担全部责任,并应保护和赔偿 SpeechColab 团队和清华大学,包括其员工、受托人、官员和代理人,免受因研究人员使用数据库而产生的任何和所有索赔,包括但不限于研究人员可能从数据库创建的任何版权音频文件的使用。
- 研究人员可向研究同事提供数据库访问权限,前提是他们首先同意遵守这些条款和条件。
- SpeechColab 团队和清华大学保留随时终止研究人员访问数据库的权利。
- 如果研究人员受雇于营利性商业实体,其雇主也应受这些条款和条件的约束,并且研究人员在此表示他或她完全有权代表该雇主进入本协议。

