SEACrowd/asr_indocsc

Name: SEACrowd/asr_indocsc
Creator: SEACrowd
Published: 2024-06-24 13:33:05
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/asr_indocsc

下载链接

链接失效反馈

官方服务：

资源简介：

该开源数据集包含4.54小时的印尼语对话语音，涉及特定主题的七段对话。数据集主要用于语音识别任务。下载数据需要在magichub.com上创建账户并登录。

提供机构：

SEACrowd

原始信息汇总

Asr Indocsc 数据集概述

基本信息

许可证: Creative Commons Attribution Non Commercial No Derivatives 4.0 (cc-by-nc-nd-4.0)
语言: 印度尼西亚语 (ind)
任务类别: 语音识别 (speech-recognition)
标签: 语音识别 (speech-recognition)

数据集描述

时长: 4.54 小时
内容: 包含七个对话，每对对话由两名说话者进行。
下载要求: 需在 https://magichub.com 创建账户并登录。

支持的任务

语音识别 (Speech Recognition)

数据集版本

源版本: 1.0.0
SEACrowd 版本: 2024.06.20

数据集加载

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/asr_indocsc", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("asr_indocsc", schema="seacrowd")

查看所有可用子集（配置名称）

print(sc.available_config_names("asr_indocsc"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

引用

plaintext @article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，构建高质量的口语对话数据集对于提升模型在真实场景下的泛化能力至关重要。SEACrowd/asr_indocsc 数据集通过采集七组双人对话，围绕特定主题展开自然交流，最终汇集了总计4.54小时的印尼语对话语音，并辅以精确的文本转录。数据来源于公开平台MagicHub，需用户注册登录后方可获取原始音频与对应标注，确保了数据来源的规范性与可追溯性。

特点

该数据集专注于印尼语的口语对话，其核心特点在于收录了真实情境下的双人互动语音，涵盖了多样化的日常话题，从而为语音识别模型提供了贴近实际应用的数据环境。数据集规模虽较为精炼，但对话内容自然连贯，语音质量清晰，标注文本准确，能够有效支持对话语音识别任务的模型训练与评估。此外，数据集遵循CC BY-NC-ND 4.0许可协议，明确了其在非商业、禁止演绎场景下的使用边界。

使用方法

研究人员可利用 `datasets` 库或专为东南亚语言设计的 `seacrowd` 库便捷加载此数据集。通过调用 `load_dataset` 函数并指定数据集名称与信任远程代码参数，即可获取结构化数据。`seacrowd` 库进一步提供了多种配置选项，允许用户查询可用子集并按特定配置加载，以适应不同的实验需求。数据加载后，可直接用于训练或测试自动语音识别模型，推动印尼语语音处理技术的发展。

背景与挑战

背景概述

在语音识别技术蓬勃发展的背景下，针对低资源语言的语音数据建设显得尤为重要。SEACrowd/asr_indocsc数据集由SEACrowd研究团队于2024年构建并发布，旨在为印度尼西亚语这一东南亚重要语言提供高质量的对话语音语料。该数据集聚焦于自然口语对话的自动语音识别任务，收录了4.54小时的主题对话录音及转写文本，涉及七组双人对话。其创建不仅填补了印尼语口语数据资源的空白，也为推动多语言语音模型在东南亚地区的公平发展与性能评估提供了关键基础设施。

当前挑战

该数据集致力于应对印度尼西亚语自动语音识别领域的数据稀缺挑战，尤其是在自然对话场景下，语音的语速变化、口音差异以及口语化表达增加了识别难度。在构建过程中，研究人员面临了诸多实际困难：采集高质量、主题多样的自然对话语音需要协调多组发言人，并确保录音环境的清晰度；人工转写文本需克服口语中的不流利现象、重叠语音以及特定文化语境表达，以保证标注的准确性与一致性；此外，在遵守CC-BY-NC-ND 4.0许可协议的前提下，平衡数据的开放共享与使用限制也是一项重要考量。

常用场景

经典使用场景

在语音识别研究领域，SEACrowd/asr_indocsc数据集为探索印尼语会话语音的自动转录提供了关键资源。该数据集包含4.54小时的印尼语对话录音，涵盖特定主题的双人交谈场景，其经典使用场景在于训练和评估端到端语音识别模型。研究者常利用该数据集构建基准测试，以衡量模型在真实对话环境下的识别准确率，尤其关注印尼语的口语化表达和语音变体。

解决学术问题

该数据集有效解决了低资源语言语音识别研究中数据稀缺的学术难题。印尼语作为东南亚广泛使用的语言，其公开语音数据相对有限，SEACrowd/asr_indocsc通过提供高质量标注的对话语料，支持了跨语言语音模型迁移学习的研究。其意义在于促进了语音技术在多语言环境下的公平发展，为构建包容性人工智能系统提供了数据基础。

衍生相关工作

围绕该数据集衍生的经典工作包括SEACrowd基准套件中的多模态评估框架，该框架整合了东南亚多种语言的语音数据。相关研究进一步拓展至低资源语音识别模型的预训练策略优化，以及跨语言语音表征学习。这些工作共同推动了区域语言技术生态的发展，为后续大规模多语言语音数据集建设提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集