SEACrowd/indspeech_news_ethnicsr

Name: SEACrowd/indspeech_news_ethnicsr
Creator: SEACrowd
Published: 2024-06-24 13:26:54
License: 暂无描述

Hugging Face2024-06-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/indspeech_news_ethnicsr

下载链接

链接失效反馈

官方服务：

资源简介：

INDspeech_NEWS_EthnicSR 是一个用于印尼民族语音识别的爪哇语和巽他语语音语料库。该数据集由日本奈良先端科学技术大学院大学（NAIST）与印尼万隆理工学院（ITB）于2012年合作开发。数据集支持语音识别任务，并提供了多种加载方法。

INDspeech_NEWS_EthnicSR is a Javanese and Sundanese speech corpus for Indonesian ethnic speech recognition. It was co-developed by the Nara Institute of Science and Technology (NAIST) of Japan and the Bandung Institute of Technology (ITB) of Indonesia in 2012. This corpus supports speech recognition tasks and provides multiple loading methods.

提供机构：

SEACrowd

原始信息汇总

数据集概述

基本信息

名称: Indspeech News Ethnicsr
语言: 巽他语 (sun), 爪哇语 (jav)
任务类别: 语音识别
标签: 语音识别

数据集详情

开发时间: 2012年
开发机构: 奈良科学技术研究所 (NAIST, 日本) 与万隆理工学院 (ITB, 印度尼西亚) 合作开发

支持的任务

语音识别

数据集使用

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/indspeech_news_ethnicsr", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("indspeech_news_ethnicsr", schema="seacrowd")

查看数据集的所有可用子集（配置名称）

print(sc.available_config_names("indspeech_news_ethnicsr"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集主页

数据集主页

数据集版本

源版本: 1.0.0
SEACrowd 版本: 2024.06.20

数据集许可

CC-BY-NC-SA 4.0

引用

使用数据集时，请引用以下内容： plaintext @inproceedings{sani-cocosda-2012, title = "Towards Language Preservation: Preliminary Collection and Vowel Analysis of {I}ndonesian Ethnic Speech Data", author = "Sani, Auliya and Sakti, Sakriani and Neubig, Graham and Toda, Tomoki and Mulyanto, Adi and Nakamura, Satoshi", booktitle = "Proc. Oriental COCOSDA", year = "2012", pages = "118--122", address = "Macau, China" }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在语言资源稀缺的背景下，INDspeech_NEWS_EthnicSR数据集的构建体现了对印度尼西亚民族语言保护的学术努力。该数据集由日本奈良先端科学技术大学院与印度尼西亚万隆理工学院于2012年合作开发，专注于爪哇语和巽他语的语音识别任务。其构建过程基于系统的语音数据采集，通过专业录音设备收集新闻播报场景下的民族语音频，并辅以精确的文本转录，确保了语音与文本的对齐质量，为后续的语音识别模型训练提供了可靠的基础语料。

特点

作为印度尼西亚民族语音识别领域的重要资源，该数据集的核心特点在于其语言多样性与专业性。它专门收录了爪哇语和巽他语两种主要民族语言的语音样本，涵盖了新闻播报这一特定领域，从而在语音风格和内容上保持了较高的一致性。数据集的音频质量经过严格控制，转录文本准确，适用于训练和评估针对低资源语言的语音识别系统，为相关语言学研究和人工智能应用提供了宝贵的实证数据。

使用方法

在语音识别技术快速发展的当下，该数据集为研究者提供了便捷的访问途径。用户可通过Hugging Face的`datasets`库直接加载数据集，或利用SEACrowd平台的多语言数据框架进行调用，支持多种配置选项以适应不同的研究需求。加载后，数据集可直接用于语音识别模型的训练、验证和测试，其结构化格式便于与主流深度学习框架集成，助力于印度尼西亚民族语言语音处理技术的探索与优化。

背景与挑战

背景概述

在语音识别技术蓬勃发展的背景下，针对资源稀缺语言的语音数据收集与建模成为计算语言学领域的重要议题。INDspeech_NEWS_EthnicSR数据集由日本奈良先端科学技术大学院大学与印度尼西亚万隆理工学院于2012年合作创建，旨在构建爪哇语和巽他语的印尼民族语音语料库，以支持相关语言的语音识别研究。该数据集的建立源于对语言保存与数字化的迫切需求，通过系统采集新闻广播语音，为低资源语言的自动语音识别系统开发提供了宝贵的训练与评估资源，对推动东南亚语言技术发展具有奠基性意义。

当前挑战

该数据集致力于解决低资源语言语音识别这一核心领域挑战，具体包括如何在高语言多样性环境下实现准确的声学与语言建模，以及如何克服因训练数据有限而导致的模型泛化能力不足问题。在构建过程中，研究团队面临了诸多实际困难，例如爪哇语与巽他语语音数据的标准化采集与标注工作繁重，需要协调多机构合作以确保数据的代表性与质量；同时，在语音信号处理层面，需有效处理方言变体、发音人差异及录音环境噪声等干扰因素，以构建纯净且可靠的语音语料库。

常用场景

经典使用场景

在语音识别研究领域，针对低资源语言的语音数据处理一直是一项挑战。INDspeech_NEWS_EthnicSR数据集聚焦于印度尼西亚的爪哇语和巽他语，这两种语言虽在东南亚地区广泛使用，但缺乏大规模的标注语音资源。该数据集通过收集新闻广播风格的语音样本，为研究者提供了一个标准化的基准测试平台，常用于训练和评估端到端的自动语音识别模型，特别是在跨语言迁移学习和少样本学习场景中，以探索如何有效利用有限数据提升模型性能。

解决学术问题

该数据集直接回应了语言技术研究中资源不平衡的学术问题。传统语音识别系统往往依赖英语、汉语等高资源语言数据，导致对少数民族或地区性语言的支持不足。INDspeech_NEWS_EthnicSR通过系统采集并标注爪哇语和巽他语的语音，为计算语言学领域提供了珍贵的低资源语言样本，促进了语音识别模型在多样性语言环境下的泛化能力研究，同时推动了语言保存技术的进展，为濒危语言的数字化存档提供了方法论参考。

衍生相关工作

围绕INDspeech_NEWS_EthnicSR数据集，学术界衍生了一系列经典研究工作。早期研究如Sani等人（2012）利用该数据进行了元音分析，探索了语音声学特征在语言保存中的基础作用。后续工作扩展到多语言语音识别模型的联合训练，例如将爪哇语、巽他语与印尼语数据结合，以提升整体识别准确率。近年来，随着SEACrowd等数据集的整合，该资源被纳入更广泛的东南亚语言基准测试中，推动了区域语言技术的协同创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集