GigaSpeech 2|自动语音识别数据集|低资源语言数据集

arXiv2024-06-17 更新2024-06-20 收录

自动语音识别

低资源语言

下载链接：

https://huggingface.co/datasets/speechcolab/gigaspeech2

下载链接

链接失效反馈

资源简介：

GigaSpeech 2是由上海交通大学人工智能重点实验室X-LANCE实验室开发的大型、多领域、多语言自动语音识别语料库，专注于低资源语言。该数据集包含约30,000小时的自动转录语音，涵盖泰语、印尼语和越南语，数据来源于未标记的YouTube视频。创建过程中采用自动化管道进行数据爬取、转录和标签精炼，使用Whisper进行初步转录，TorchAudio进行强制对齐，并通过多维过滤确保数据质量。数据集的应用领域主要在于提升低资源语言的语音识别技术，解决传统ASR模型依赖大量标记训练数据的瓶颈问题。

提供机构：

人工智能重点实验室，X-LANCE实验室，上海交通大学

创建时间：

2024-06-17

AI搜集汇总

数据集介绍

构建方式

GigaSpeech 2 数据集的构建采用了自动化的数据爬取、转录和标签精炼流程。首先，通过 YouTube 平台爬取大量未标注的音频数据，涵盖泰语、印尼语和越南语等多种低资源语言。随后，利用 Whisper 模型进行初步转录，并通过 TorchAudio 进行强制对齐，确保转录的准确性。为了进一步提升数据质量，引入了多维度的过滤机制，包括字符集过滤、语言置信度过滤和音频时长过滤等。最后，通过改进的 Noisy Student Training (NST) 方法对伪标签进行迭代精炼，逐步提升数据质量。

特点

GigaSpeech 2 数据集具有大规模、多领域和多语言的特点，涵盖了约 30,000 小时的自动转录语音数据，其中精炼后的数据集包含 10,000 小时的泰语、6,000 小时的印尼语和越南语数据。该数据集特别关注低资源语言，避免了传统语音识别数据集中对标注数据的依赖。通过自动化的数据爬取和精炼流程，GigaSpeech 2 提供了高质量的语音数据，适用于多种语音识别任务。

使用方法

GigaSpeech 2 数据集的使用方法主要包括模型的训练和评估。用户可以通过该数据集训练自动语音识别 (ASR) 模型，特别是在低资源语言上的表现。数据集提供了训练集、开发集和测试集，开发集和测试集包含手动转录的 10 小时数据，确保了评估的准确性。用户还可以利用改进的 Noisy Student Training (NST) 方法对模型进行迭代训练，进一步提升模型性能。实验结果表明，基于 GigaSpeech 2 训练的 ASR 模型在泰语、印尼语和越南语上的词错误率显著降低，性能优于现有的商业服务。

背景与挑战

背景概述

GigaSpeech 2是由上海交通大学、香港中文大学、清华大学等机构的研究团队于2024年发布的一个大规模、多领域、多语言的自动语音识别（ASR）语料库。该数据集旨在解决低资源语言的语音识别问题，特别是针对泰语、印尼语和越南语等东南亚语言。GigaSpeech 2包含了约30,000小时的自动转录语音数据，主要从YouTube视频中爬取，并通过自动化流程进行转录和标签优化。该数据集的创新之处在于其不依赖于成对的语音和文本数据，而是通过自动化的数据爬取、转录和过滤流程，结合改进的Noisy Student Training（NST）方法，逐步优化伪标签的质量。实验结果表明，基于GigaSpeech 2训练的ASR模型在泰语、印尼语和越南语的识别任务中，相较于Whisper large-v3模型，词错误率降低了25%至40%，且仅使用了10%的模型参数。这一成果为低资源语言的语音识别研究开辟了新的方向。

当前挑战

GigaSpeech 2在构建过程中面临了多重挑战。首先，低资源语言的语音数据稀缺且分布不均，传统的语音识别模型依赖于大量标注数据，而这在低资源语言中难以实现。其次，自动转录的准确性难以保证，尤其是在YouTube视频中，自动生成的字幕往往与语音内容不完全匹配，导致数据质量参差不齐。为此，研究团队开发了一套自动化流程，结合Whisper进行初始转录，并使用TorchAudio进行强制对齐，同时通过多维度的过滤机制确保数据质量。此外，改进的Noisy Student Training方法被用于迭代优化伪标签，进一步提升了模型的性能。尽管取得了显著进展，GigaSpeech 2仍面临数据规模不足、领域不匹配等挑战，特别是在印尼语和越南语的数据量相对较少的情况下，模型的泛化能力仍有待提升。

常用场景

经典使用场景

GigaSpeech 2数据集在自动语音识别（ASR）领域中被广泛用于低资源语言的模型训练与评估。其经典使用场景包括多语言、多领域的语音识别任务，尤其是在泰语、印尼语和越南语等低资源语言的识别中表现出色。通过自动化的数据爬取、转录和标签优化流程，GigaSpeech 2为研究人员提供了一个高质量、大规模的语音数据集，极大地推动了低资源语言ASR模型的发展。

衍生相关工作

GigaSpeech 2的发布催生了一系列相关研究工作，尤其是在低资源语言ASR领域。基于GigaSpeech 2的研究成果，许多学者进一步优化了ASR模型的训练方法，尤其是在伪标签生成和数据过滤方面。此外，GigaSpeech 2的自动化数据生成流程也被广泛应用于其他低资源语言数据集的构建，推动了多语言语音识别技术的发展。其改进的Noisy Student Training方法也被其他领域的研究人员借鉴，用于提升其他类型数据集的标签质量。

数据集最近研究

相关研究论文

1
GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement人工智能重点实验室，X-LANCE实验室，上海交通大学 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据，涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标，适用于太阳能资源评估和气候研究。