SEACrowd/jv_id_asr

Name: SEACrowd/jv_id_asr
Creator: SEACrowd
Published: 2024-06-24 13:32:07
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/jv_id_asr

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含爪哇语的转录音频数据，由Google与雷克雅未克大学和印度尼西亚加查马达大学合作收集。数据集包括音频文件和TSV文件，其中TSV文件包含文件ID、用户ID和音频文件的转录文本。数据集经过手动质量检查，但仍可能存在错误。数据集支持语音识别任务，并提供了使用`datasets`和`seacrowd`库加载数据集的示例代码。数据集的版本信息、许可证和引用信息也在README中提供。

提供机构：

SEACrowd

原始信息汇总

Jv Id Asr 数据集概述

基本信息

语言: Javanese
任务类别: 语音识别
标签: 语音识别

数据集描述

内容: 包含Javanese语言的转录音频数据。
格式: 包含波形文件和TSV文件。
TSV文件: 包含FileID、UserID和音频文件的转录文本。
质量: 数据集经过手动质量检查，但可能仍存在错误。
收集机构: 由Google与Reykjavik University和Universitas Gadjah Mada合作收集。

支持任务

语音识别

数据集版本

源版本: 1.0.0
SEACrowd版本: 2024.06.20

数据集许可证

Attribution-ShareAlike 4.0 International

引用

引用格式:

@inproceedings{kjartansson-etal-sltu2018, title = {{Crowd-Sourced Speech Corpora for Javanese, Sundanese, Sinhala, Nepali, and Bangladeshi Bengali}}, author = {Oddur Kjartansson and Supheakmungkol Sarin and Knot Pipatsrisawat and Martin Jansche and Linne Ha}, booktitle = {Proc. The 6th Intl. Workshop on Spoken Language Technologies for Under-Resourced Languages (SLTU)}, year = {2018}, address = {Gurugram, India}, month = aug, pages = {52--55}, URL = {http://dx.doi.org/10.21437/SLTU.2018-11}, }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在语音识别领域，构建高质量的低资源语言数据集对于推动技术普惠至关重要。SEACrowd/jv_id_asr数据集由谷歌与雷克雅未克大学及印度尼西亚加查马达大学合作，通过众包方式精心采集爪哇语语音数据。该数据集包含音频波形文件及对应的转录文本，以TSV格式组织，每行记录文件标识符、用户标识符及人工校验后的文本转录，确保了数据的准确性与可靠性。

特点

作为专注于东南亚低资源语言的语音数据集，SEACrowd/jv_id_asr以其纯正的爪哇语语音样本和精细的人工质量检查而著称。数据集不仅提供了标准的音频文件与文本对齐，还通过SEACrowd平台的多模式数据枢纽架构，支持灵活的配置加载与跨语言基准测试，为研究者提供了探索语音识别模型在多样化语言环境中泛化能力的宝贵资源。

使用方法

利用该数据集进行语音识别研究时，用户可通过`datasets`库直接加载，或借助`seacrowd`库按特定配置灵活调用。加载过程支持远程代码信任，确保数据获取的安全与便捷。研究者可依据任务需求，选择默认配置或特定子集，进而开展模型训练、评估及跨语言对比分析，推动爪哇语等低资源语言语音技术的实际应用与创新。

背景与挑战

背景概述

在语音识别技术迅速发展的背景下，针对资源稀缺语言的语音数据收集成为推动语言技术普及的关键。Jv Id Asr数据集由谷歌、雷克雅未克大学以及印度尼西亚加查马达大学于2018年合作创建，专注于爪哇语的自动语音识别任务。该数据集通过众包方式收集了高质量的音频转录数据，旨在解决爪哇语作为低资源语言在语音技术应用中的空白，为东南亚语言的信息处理研究提供了重要基础，促进了多语言语音模型的公平发展。

当前挑战

Jv Id Asr数据集面临的挑战主要体现在两个方面：在领域问题层面，爪哇语作为低资源语言，其语音识别任务常受限于方言变体丰富、发音差异显著以及缺乏标准化语音资源，导致模型泛化能力不足；在构建过程中，数据收集需克服众包环境下的质量控制难题，包括音频噪声干扰、转录准确性验证以及跨地域发音差异的标注一致性维护，这些因素均增加了数据集构建的复杂性与可靠性保障的难度。

常用场景

经典使用场景

在语音识别领域，针对资源稀缺语言的研究常面临数据匮乏的挑战。SEACrowd/jv_id_asr数据集作为爪哇语语音语料库，其经典使用场景在于为自动语音识别（ASR）模型的训练与评估提供高质量、人工校验的音频转录对。研究者可借助该数据集构建端到端的语音识别系统，或用于预训练模型的微调，以提升模型在爪哇语这一低资源语言上的识别准确率与鲁棒性。

解决学术问题

该数据集有效解决了低资源语言语音识别研究中数据缺失的核心问题。通过提供大规模、结构化的爪哇语语音样本，它支持了跨语言语音模型迁移学习、少样本学习以及语言模型适应等前沿学术探索。其存在促进了语言技术公平性研究，助力缩小数字语言鸿沟，并为计算语言学领域提供了宝贵的实证基础，推动了多语言语音处理技术的均衡发展。

衍生相关工作

围绕该数据集，已衍生出一系列重要的研究工作。其原始数据收集工作发表于SLTU 2018研讨会，为后续低资源语言语音识别研究奠定了基础。此外，它被整合入SEACrowd多语言多模态数据枢纽与基准测试套件，催生了针对东南亚语言的统一评估框架与跨模态研究。这些工作共同推动了针对爪哇语等特定语言的技术创新与资源建设生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集