five

gigaspeech2-test

收藏
Hugging Face2026-03-26 更新2026-03-27 收录
下载链接:
https://huggingface.co/datasets/speechcolab/gigaspeech2-test
下载链接
链接失效反馈
官方服务:
资源简介:
GigaSpeech 2 是一个不断发展的、大规模的、多领域的、多语言的自动语音识别(ASR)语料库,重点关注低资源语言。该数据集包含泰语、印尼语和越南语的约30,000小时自动转录语音。其中,GigaSpeech 2 refine子集包含10,000小时的泰语语音,以及各6,000小时的印尼语和越南语语音。数据集主要用于自动语音识别任务,支持评估模型的字符错误率(CER)和词错误率(WER)。数据集结构包括音频文件(.wav)和转录文件(.tsv),音频文件采样率为16kHz,转录文件包含段ID和对应文本。数据集分为测试子集,泰语、印尼语和越南语分别有10小时、10小时和11小时的转录数据。数据集的使用受限于非商业研究和教育目的,需遵守特定的访问条款。
创建时间:
2026-03-21
原始信息汇总

GigaSpeech 2 TEST 数据集概述

数据集基本信息

  • 数据集名称:GigaSpeech 2 TEST
  • 维护者/机构:SpeechColab,清华大学
  • 许可证:Apache-2.0(代码及元数据),音频文件受特定访问条款约束
  • 主要用途:自动语音识别(ASR)
  • 多语言性:多语言
  • 规模类别:1M < n < 10M

语言与内容

  • 包含语言:泰语(th)、印度尼西亚语(id)、越南语(vi)
  • 数据描述:GigaSpeech 2 是一个不断发展的、大规模、多领域、多语言的ASR语料库,专注于低资源语言。GigaSpeech 2 TEST 是该数据集的测试子集。
  • 数据来源:GigaSpeech 2 TEST 的音频由专业人工标注员转录,具有挑战性和真实性。

数据集结构

配置与特征

数据集包含三个独立的配置,分别对应三种语言:

  • 配置名称thidvi
  • 通用特征
    • __key__ (string):数据项键。
    • __url__ (string):URL。
    • wav (audio):音频数据,采样率为16000 Hz。
  • 数据分割:每个配置仅包含一个 test 分割。

文件结构

GigaSpeech 2 TEST ├── data │   ├── id │   │   ├── test.tar.gz │   │   └── test.tsv │   ├── th │   │   ├── test.tar.gz │   │   └── test.tsv │   └── vi │   ├── test.tar.gz │   └── test.tsv └── README.md

数据实例格式

  • 音频文件 (.wav)
    • 声道数:1
    • 采样率:16000
    • 采样编码:16位有符号整数PCM
  • 转录文件 (.tsv)
    • 格式:<segment_id> <text>
    • 字段:
      • segment_id (string):片段ID。
      • text (string):片段的转录文本。

数据分割详情(测试集)

语言 数据量(小时)
泰语 (Thai) 10.0
印度尼西亚语 (Indonesian) 10.0
越南语 (Vietnamese) 11.0

支持的任务与评估

  • 主要任务automatic-speech-recognition (自动语音识别)
  • 评估方式:使用该测试子集评估ASR模型。模型接收音频文件并需要将其转录为文本。
  • 评估指标
    • 泰语:字符错误率 (Character Error Rate, CER)
    • 印度尼西亚语和越南语:词错误率 (Word Error Rate, WER)
  • 排行榜:任务设有活跃的排行榜,可在此处查看:https://github.com/SpeechColab/GigaSpeech2#leaderboard

访问与使用条款

  • 访问方式:通过Hugging Face Hub在特定条件和条款下提供访问,需要填写门控表单并同意条款。
  • 核心使用限制:仅可用于非商业研究和教育目的。
  • 责任声明:使用者需对使用该数据库承担全部责任,并需为SpeechColab团队和清华大学进行辩护和赔偿。
  • 版权说明:SpeechColab不拥有音频文件的版权。基于该数据集训练的机器学习模型的许可证独立于数据集的许可证,使用者需自行核实其特定用例的“合理使用”条款。

相关资源

  • 代码仓库:https://github.com/SpeechColab/GigaSpeech2
  • 论文:https://aclanthology.org/2025.acl-long.135.pdf
  • ModelScope:https://modelscope.cn/datasets/AI-ModelScope/gigaspeech2
  • 数据准备工具:可使用 lhotse prepare gigaspeech2 命令进行准备。
  • 联系邮箱:gigaspeech@speechcolab.org

引用信息

如需使用本工作,请引用以下论文: bibtext @inproceedings{gigaspeech2, title={GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement}, author={Yifan Yang and Zheshu Song and Jianheng Zhuo and Mingyu Cui and Jinpeng Li and Bo Yang and Yexing Du and Ziyang Ma and Xunying Liu and Ziyuan Wang and Ke Li and Shuai Fan and Kai Yu and Wei-Qiang Zhang and Guoguo Chen and Xie Chen}, booktitle={Proc. ACL}, year={2025}, address={Vienna}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在自动语音识别领域,构建高质量的多语言数据集对于推动低资源语言技术进步至关重要。GigaSpeech2-test数据集作为GigaSpeech 2语料库的评估子集,其构建过程体现了严谨的学术规范。该子集聚焦于泰语、印尼语和越南语三种语言,每种语言均包含约10小时的音频数据。这些音频数据并非自动生成,而是由专业的人工标注员进行精心转录,确保了转录文本的准确性与可靠性,为模型评估提供了具有挑战性且贴近真实场景的基准。
特点
作为面向低资源语言的大规模多领域语音识别语料库的组成部分,GigaSpeech2-test数据集展现出鲜明的技术特征。其核心在于提供了泰语、印尼语和越南语三种语言的标准化测试集,每种语言的音频时长均经过精确配比。所有音频文件均采用16kHz采样率、16位有符号整数PCM编码的单声道格式,保证了数据格式的统一性。该数据集专为模型评估设计,不包含训练或验证划分,其转录文本由人工完成,为衡量自动语音识别系统的字符错误率或词错误率提供了权威的参照标准。
使用方法
在语音识别模型的性能评估流程中,标准化的测试集发挥着不可或缺的作用。研究人员可通过Hugging Face平台或ModelScope获取GigaSpeech2-test数据集,并利用`lhotse`工具包中的专用准备脚本进行数据加载与预处理。该数据集主要用于评估模型在泰语、印尼语和越南语上的自动语音识别性能,对应的评估指标分别为字符错误率和词错误率。使用者需严格遵守其访问条款,仅将数据用于非商业的研究与教育目的,并可通过官方维护的排行榜对比不同模型的性能表现。
背景与挑战
背景概述
GigaSpeech2-test数据集是GigaSpeech 2项目的重要组成部分,由SpeechColab团队与清华大学联合开发,于2025年正式发布。该数据集聚焦于自动语音识别领域,特别是针对泰语、印尼语和越南语等低资源语言,旨在解决这些语言因数据稀缺而制约模型性能的核心研究问题。通过提供大规模、多领域且经过专业人工标注的测试集,该数据集为低资源语言ASR模型的评估与优化奠定了坚实基础,显著推动了多语言语音技术研究的均衡发展。
当前挑战
在领域问题层面,GigaSpeech2-test致力于应对低资源语言自动语音识别的独特挑战,例如泰语、印尼语和越南语中复杂的音系结构、方言变体及书写系统差异,这些因素导致传统模型在跨语言泛化与准确性上面临严峻考验。构建过程中,团队需克服大规模音频数据的自动化爬取与清洗难题,并确保多语言转录文本的标注质量与一致性,同时还需妥善处理音频文件的版权许可问题,以保障数据集的合法性与可访问性。
常用场景
经典使用场景
在自动语音识别领域,GigaSpeech2-test数据集作为评估基准,其经典应用场景在于为泰语、印尼语和越南语等低资源语言的语音识别模型提供标准化测试平台。该数据集包含专业人工标注的音频转录,确保了评估数据的准确性与可靠性,研究人员通过计算字符错误率或词错误率,能够客观衡量模型在真实多语言环境下的识别性能,从而推动跨语言语音技术的迭代与优化。
解决学术问题
该数据集有效应对了低资源语言语音识别研究中数据稀缺的挑战,通过提供大规模、多领域且经过精细标注的测试样本,为学术界建立了统一的评估框架。它使得研究者能够系统性地探索模型在泰语、印尼语和越南语上的泛化能力与鲁棒性,促进了跨语言迁移学习、端到端语音识别等前沿方向的发展,对缩小语言技术鸿沟具有深远意义。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典研究工作,包括基于Transformer的端到端多语言ASR模型、低资源语言语音识别的数据增强方法,以及跨语言预训练技术的创新。这些工作不仅提升了在GigaSpeech2-test基准上的性能指标,还推动了语音识别领域向更高效、更包容的多语言处理范式演进,为后续研究奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作