SEACrowd/asr_malcsc

Name: SEACrowd/asr_malcsc
Creator: SEACrowd
Published: 2024-06-24 13:31:52
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/asr_malcsc

下载链接

链接失效反馈

官方服务：

资源简介：

该开源数据集包含5小时的马来语对话语音，涉及特定主题，共有五对说话者之间的十段对话。数据集的语言为马来语（zlm），主要用于语音识别任务。

This open-source dataset consists of 5 hours of transcribed Malay conversational speech on certain topics, where ten conversations between five pairs of speakers were contained. The language of the dataset is Malay (zlm), and it is primarily used for speech recognition tasks.

提供机构：

SEACrowd

原始信息汇总

Asr Malcsc 数据集概述

基本信息

许可证: Creative Commons Attribution Non Commercial No Derivatives 4.0 (cc-by-nc-nd-4.0)
语言: zlm
任务类别: 语音识别
标签: 语音识别

数据集描述

内容: 包含5小时的马来语对话语音，涉及特定话题，共有10段对话，每段对话由5对说话者进行。

支持的任务

语音识别

数据集版本

源版本: 1.0.0
SEACrowd版本: 2024.06.20

引用

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在马来语语音识别研究领域，构建高质量的对话语音数据集对于推动自然语言处理技术的发展至关重要。SEACrowd/asr_malcsc数据集的构建过程体现了严谨的学术规范，其核心内容来源于五对说话者之间的十段对话录音，总计时长达五小时。这些对话围绕特定主题展开，确保了语料的连贯性与实用性。录音完成后，研究团队对语音内容进行了精确的转录，形成了语音与文本对齐的标注数据。整个数据集遵循Creative Commons Attribution Non Commercial No Derivatives 4.0协议发布，为学术研究提供了合法且结构化的资源基础。

特点

该数据集在马来语语音资源中展现出鲜明的特色，其语料完全由自然对话构成，涵盖了多样化的口语表达与互动场景。五小时的语音时长虽然精炼，但内容聚焦于特定话题，保证了语料的深度与一致性。数据集中包含了多位说话者的声音，能够反映个体发音差异与对话中的自然停顿、重叠等真实语音现象。这些特征使得数据集特别适用于训练和评估在嘈杂或交互式环境下的自动语音识别模型，为研究马来语口语的韵律、语用及识别鲁棒性提供了宝贵的实验材料。

使用方法

研究人员可通过多种技术途径便捷地使用此数据集。最直接的方法是调用`datasets`库，使用`load_dataset`函数并指定数据集名称即可加载。对于专注于东南亚语言研究的学者，亦可利用`seacrowd`这一专用库进行加载，该库支持通过默认配置或指定配置名称来获取数据，并能列出所有可用的数据子集。加载后的数据可直接用于训练语音识别模型，或作为基准测试集评估模型在马来语对话场景下的性能。数据集主页提供了更详细的元信息与访问指引，确保了使用的规范性与可复现性。

背景与挑战

背景概述

在语音识别技术迅猛发展的背景下，针对低资源语言的语音数据资源显得尤为珍贵。SEACrowd/asr_malcsc数据集由SEACrowd团队于2024年构建，旨在填补马来语口语对话语音数据的空白。该数据集收录了5小时的马来语对话语音，涵盖特定话题的十段对话，涉及五组不同说话者，为马来语自动语音识别研究提供了关键的基础资源。其创建不仅推动了东南亚语言多模态数据生态的发展，也为低资源语言语音技术的公平性与包容性研究注入了新的活力。

当前挑战

该数据集致力于解决马来语自动语音识别任务中的挑战，主要面临语音信号在自然对话场景下的高变异性，如口音差异、语速波动以及背景噪声干扰，这些因素显著增加了模型准确转录的难度。在构建过程中，挑战集中于数据采集与标注环节，包括寻找多样化的说话者以覆盖不同人口统计学特征，确保对话内容的自然性与代表性，以及在遵守CC-BY-NC-ND 4.0许可协议下平衡数据开放性与使用限制，这些工作对资源有限的低资源语言研究构成了实质性障碍。

常用场景

经典使用场景

在语音识别研究领域，马来语作为东南亚地区的重要语言之一，其语音资源的稀缺性长期制约着相关技术的发展。SEACrowd/asr_malcsc数据集以其5小时的马来语对话语音转录内容，为构建和优化马来语自动语音识别模型提供了关键数据支撑。该数据集收录了五对说话者在特定话题下的自然对话，涵盖了日常交流中的语音变化和语境多样性，使得研究者能够基于真实对话场景训练模型，提升识别系统对马来语口语特征的捕捉能力。

解决学术问题

该数据集主要解决了马来语语音识别研究中数据匮乏的核心问题，为低资源语言的技术探索提供了实证基础。通过提供高质量、话题丰富的对话语音样本，它支持了端到端语音识别模型的训练与评估，促进了声学模型和语言模型在马来语上的适配研究。其意义在于填补了东南亚语言语音数据集的空白，推动了多语言语音处理技术的均衡发展，并为低资源语言社区的数字化包容性研究提供了数据范例。

衍生相关工作

围绕该数据集，已衍生出一系列针对东南亚语言的语音处理研究。例如，SEACrowd数据枢纽项目将其纳入多语言多模态基准测试套件，促进了跨语言语音识别模型的比较与优化；相关工作还探索了基于迁移学习的低资源语音识别方法，利用该数据集进行模型预训练或微调。这些经典工作不仅拓展了马来语语音技术的应用边界，也为类似低资源语言的数据集构建与算法研究提供了参考框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集