gigaspeech2-test
收藏GigaSpeech 2 TEST 数据集概述
数据集基本信息
- 数据集名称:GigaSpeech 2 TEST
- 维护者/机构:SpeechColab,清华大学
- 许可证:Apache-2.0(代码及元数据),音频文件受特定访问条款约束
- 主要用途:自动语音识别(ASR)
- 多语言性:多语言
- 规模类别:1M < n < 10M
语言与内容
- 包含语言:泰语(th)、印度尼西亚语(id)、越南语(vi)
- 数据描述:GigaSpeech 2 是一个不断发展的、大规模、多领域、多语言的ASR语料库,专注于低资源语言。GigaSpeech 2 TEST 是该数据集的测试子集。
- 数据来源:GigaSpeech 2 TEST 的音频由专业人工标注员转录,具有挑战性和真实性。
数据集结构
配置与特征
数据集包含三个独立的配置,分别对应三种语言:
- 配置名称:
th,id,vi - 通用特征:
__key__(string):数据项键。__url__(string):URL。wav(audio):音频数据,采样率为16000 Hz。
- 数据分割:每个配置仅包含一个
test分割。
文件结构
GigaSpeech 2 TEST ├── data │ ├── id │ │ ├── test.tar.gz │ │ └── test.tsv │ ├── th │ │ ├── test.tar.gz │ │ └── test.tsv │ └── vi │ ├── test.tar.gz │ └── test.tsv └── README.md
数据实例格式
- 音频文件 (.wav):
- 声道数:1
- 采样率:16000
- 采样编码:16位有符号整数PCM
- 转录文件 (.tsv):
- 格式:
<segment_id> <text> - 字段:
segment_id(string):片段ID。text(string):片段的转录文本。
- 格式:
数据分割详情(测试集)
| 语言 | 数据量(小时) |
|---|---|
| 泰语 (Thai) | 10.0 |
| 印度尼西亚语 (Indonesian) | 10.0 |
| 越南语 (Vietnamese) | 11.0 |
支持的任务与评估
- 主要任务:
automatic-speech-recognition(自动语音识别) - 评估方式:使用该测试子集评估ASR模型。模型接收音频文件并需要将其转录为文本。
- 评估指标:
- 泰语:字符错误率 (Character Error Rate, CER)
- 印度尼西亚语和越南语:词错误率 (Word Error Rate, WER)
- 排行榜:任务设有活跃的排行榜,可在此处查看:https://github.com/SpeechColab/GigaSpeech2#leaderboard
访问与使用条款
- 访问方式:通过Hugging Face Hub在特定条件和条款下提供访问,需要填写门控表单并同意条款。
- 核心使用限制:仅可用于非商业研究和教育目的。
- 责任声明:使用者需对使用该数据库承担全部责任,并需为SpeechColab团队和清华大学进行辩护和赔偿。
- 版权说明:SpeechColab不拥有音频文件的版权。基于该数据集训练的机器学习模型的许可证独立于数据集的许可证,使用者需自行核实其特定用例的“合理使用”条款。
相关资源
- 代码仓库:https://github.com/SpeechColab/GigaSpeech2
- 论文:https://aclanthology.org/2025.acl-long.135.pdf
- ModelScope:https://modelscope.cn/datasets/AI-ModelScope/gigaspeech2
- 数据准备工具:可使用
lhotse prepare gigaspeech2命令进行准备。 - 联系邮箱:gigaspeech@speechcolab.org
引用信息
如需使用本工作,请引用以下论文: bibtext @inproceedings{gigaspeech2, title={GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement}, author={Yifan Yang and Zheshu Song and Jianheng Zhuo and Mingyu Cui and Jinpeng Li and Bo Yang and Yexing Du and Ziyang Ma and Xunying Liu and Ziyuan Wang and Ke Li and Shuai Fan and Kai Yu and Wei-Qiang Zhang and Guoguo Chen and Xie Chen}, booktitle={Proc. ACL}, year={2025}, address={Vienna}, }




