speechcolab/gigaspeech2
收藏数据集卡片 for GigaSpeech 2
数据集描述
GigaSpeech 2 是一个不断发展的大型、多领域、多语言自动语音识别(ASR)语料库,专注于低资源语言。GigaSpeech 2 原始包含约 30,000 小时的自动转录语音,涵盖泰语、印度尼西亚语和越南语。GigaSpeech 2 精炼包含 10,000 小时的泰语、6,000 小时的印度尼西亚语和越南语。
- 主页: https://github.com/SpeechColab/GigaSpeech2
- 仓库: https://github.com/SpeechColab/GigaSpeech2
- 论文: https://export.arxiv.org/pdf/2406.11546
- 排行榜: https://github.com/SpeechColab/GigaSpeech2#leaderboard
- 联系人: gigaspeech@speechcolab.org
支持的任务和排行榜
automatic-speech-recognition: 该数据集可用于训练自动语音识别(ASR)模型。模型接收音频文件并将其转录为书面文本。评估指标包括泰语的字符错误率(CER)和印度尼西亚语及越南语的词错误率(WER)。任务有一个活跃的排行榜,可以在 https://github.com/SpeechColab/GigaSpeech2#leaderboard 找到,并根据 WER 对模型进行排名。
语言
GigaSpeech 2 包含泰语、印度尼西亚语和越南语的音频和转录数据。
数据集结构
shell GigaSpeech 2 ├── data │ ├── id │ │ ├── md5 │ │ ├── dev.tar.gz │ │ ├── dev.tsv │ │ ├── test.tar.gz │ │ ├── test.tsv │ │ ├── train │ │ │ ├── 0.tar.gz │ │ │ ├── 1.tar.gz │ │ │ └── ... │ │ ├── train_raw.tsv │ │ └── train_refined.tsv │ ├── th │ │ ├── md5 │ │ ├── dev.tar.gz │ │ ├── dev.tsv │ │ ├── test.tar.gz │ │ ├── test.tsv │ │ ├── train │ │ │ ├── 0.tar.gz │ │ │ ├── 1.tar.gz │ │ │ └── ... │ │ ├── train_raw.tsv │ │ └── train_refined.tsv │ └── vi │ ├── md5 │ ├── dev.tar.gz │ ├── dev.tsv │ ├── test.tar.gz │ ├── test.tsv │ ├── train │ │ ├── 0.tar.gz │ │ ├── 1.tar.gz │ │ └── ... │ ├── train_raw.tsv │ └── train_refined.tsv ├── metadata.json └── README.md
数据实例
shell 音频文件 (.wav): 通道: 1 采样率: 16000 采样编码: 16位有符号整数PCM
转录文件 (.tsv): <segment_id> <text>
数据字段
- segment_id (字符串) - 段落的字符串ID。
- text (字符串) - 段落的转录文本。
数据分割
数据集有三个子集:train、dev和test。train集有两种配置:raw和refined。train_raw包含train_refined的所有数据。
转录训练子集大小
| 泰语 (小时) | 印度尼西亚语 (小时) | 越南语 (小时) | |
|---|---|---|---|
| GigaSpeech 2 raw | 12901.8 | 8112.9 | 7324.0 |
| GigaSpeech 2 refined | 10262.0 | 5714.0 | 6039.0 |
GigaSpeech 2 raw 包含 GigaSpeech 2 refined 的所有数据。
转录评估子集
| 泰语 (小时) | 印度尼西亚语 (小时) | 越南语 (小时) | |
|---|---|---|---|
| GigaSpeech 2 dev | 10.0 | 10.0 | 10.2 |
| GigaSpeech 2 test | 10.0 | 10.0 | 11.0 |
数据集创建
源数据
- GigaSpeech 2 raw: 30,000 小时的自动转录语音,涵盖泰语、印度尼西亚语和越南语。
- GigaSpeech 2 refined: 10,000 小时的泰语、6,000 小时的印度尼西亚语和越南语。
- GigaSpeech 2 DEV & TEST: 每个语言的 DEV 和 TEST 各 10 小时,由专业人工注释者转录,具有挑战性和现实性。
注释
注释者是谁?
开发(DEV)和测试(TEST)子集由专业人工注释者注释。
许可信息
SpeechColab 不拥有音频文件的版权。对于希望将音频文件用于非商业研究和/或教育目的的研究人员和教育工作者,我们可以在特定条件和条款下通过我们的网站提供访问权限。
引用信息
如果您发现此工作有用,请引用此论文:
bibtext @article{gigaspeech2, title={GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement}, author={Yifan Yang and Zheshu Song and Jianheng Zhuo and Mingyu Cui and Jinpeng Li and Bo Yang and Yexing Du and Ziyang Ma and Xunying Liu and Ziyuan Wang and Ke Li and Shuai Fan and Kai Yu and Wei-Qiang Zhang and Guoguo Chen and Xie Chen}, journal={arXiv preprint arXiv:2406.11546}, year={2024}, }
访问条款
"研究人员"已请求使用清华大学 GigaSpeech 2 数据库("数据库")的权限。作为交换,研究人员同意以下条款和条件:
- 研究人员仅将数据库用于非商业研究和教育目的。
- SpeechColab 团队和清华大学对数据库不做任何陈述或保证,包括但不限于非侵权或适合特定目的的保证。
- 研究人员对其使用数据库承担全部责任,并应为 SpeechColab 团队和清华大学(包括其员工、受托人、官员和代理人)辩护并赔偿因研究人员使用数据库而产生的任何和所有索赔,包括但不限于研究人员从数据库创建的任何版权音频文件的使用。
- 研究人员可以向研究同事提供数据库的访问权限,前提是他们首先同意遵守这些条款和条件。
- SpeechColab 团队和清华大学保留随时终止研究人员访问数据库的权利。
- 如果研究人员受雇于营利性商业实体,研究人员的雇主也应受这些条款和条件的约束,并且研究人员在此表示他或她有权代表该雇主进入本协议。



