SEACrowd/indspeech_teldialog_svcsr

Name: SEACrowd/indspeech_teldialog_svcsr
Creator: SEACrowd
Published: 2024-06-24 13:23:53
License: 暂无描述

Hugging Face2024-06-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/indspeech_teldialog_svcsr

下载链接

链接失效反馈

官方服务：

资源简介：

Indspeech Teldialog Svcsr是首个针对小词汇量连续语音识别（SVCSR）的印尼语语音数据集，由印尼电信研发部门TELKOMRisTI与日本先进电信研究所国际（ATR）和万隆理工学院（ITB）合作，在2004年亚太电信社区（APT）项目下开发。该数据集最初为听力及言语障碍人士的电信系统设计，但也可用于自动呼叫中心等其他应用，以及语音转换任务。数据集包含20,000条来自200名发言者的语音，年龄限制在20至40岁，涵盖多种方言和族群。录音包括清晰语音和电话语音，但仅提供清晰语音。数据集被平均分为训练集和测试集，每集包含100名发言者。

提供机构：

SEACrowd

原始信息汇总

数据集概述

基本信息

名称: Indspeech Teldialog Svcsr
语言: 印度尼西亚语 (ind)
任务类别: 语音识别 (speech-recognition)
标签: 语音识别

数据集描述

开发机构: TELKOMRisTI、Advanced Telecommunication Research Institute International (ATR) Japan 和 Bandung Institute of Technology (ITB)
开发时间: 2004年
项目背景: 亚洲-太平洋电信共同体 (APT) 项目
原始用途: 为听力和语言障碍人士开发的电信系统
其他应用: 自动呼叫中心、语音转换任务

数据内容

文本来源: 基于必要的对话呼叫词汇，如119紧急部门、108电话信息部门和票务预订部门
总 utterances: 20,000条 (约18小时)
词汇量: 70个单词
句子数量: 100句 (包括单字句子)
说话人数量: 200人 (100女性, 100男性)
年龄范围: 20-40岁
方言多样性: 来自不同民族群体的广泛方言
录音条件: 清洁和电话语音并行录制，仅开放清洁语音
音频格式: 单声道16位PCM WAV，采样率16000 Hz
数据分割: 训练集和测试集各100人 (50女性, 50男性)

支持任务

语音识别

数据集版本

源版本: 1.0.0
SEACrowd版本: 2024.06.20

数据集许可证

CC-BY-NC-SA-4.0

引用

Sakti et al., 2004:

@inproceedings{sakti-icslp-2004, title = "Indonesian Speech Recognition for Hearing and Speaking Impaired People", author = "Sakti, Sakriani and Hutagaol, Paulus and Arman, Arry Akhmad and Nakamura, Satoshi", booktitle = "Proc. International Conference on Spoken Language Processing (INTERSPEECH - ICSLP)", year = "2004", pages = "1037--1040", address = "Jeju Island, Korea" }
SEACrowd, 2024:

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

该数据集由TELKOMRisTI（PT Telekomunikasi Indonesia的研发部门）与日本先进电信研究机构国际（ATR）和万隆理工学院（ITB）合作，在2004年亚洲-太平洋电信社区（APT）项目下开发。数据集基于一个70词的对话词汇，涵盖了与119紧急部门、108电话信息部门和票务预订部门的必要对话。总共包含20,000个语音样本（约18小时），由200名年龄在20至40岁之间的说话者（100名女性和100名男性）录制。录音在清洁和电话语音条件下并行进行，但仅开放清洁语音部分。每个音频文件为单声道16位PCM WAV格式，采样率为16000 Hz。训练和测试集各包含100名说话者（50名女性和50名男性）。

特点

该数据集的显著特点在于其小词汇量连续语音识别（SVCSR）的专一性，适用于语音转换任务。所有说话者均使用相同的句子，这为语音转换提供了理想的数据基础。此外，数据集涵盖了来自不同民族群体的广泛方言，增加了其多样性和实用性。尽管最初为听力和言语障碍者的电信系统设计，但其应用范围已扩展至自动呼叫中心等其他领域。

使用方法

使用该数据集可以通过`datasets`库或`seacrowd`库进行。通过`datasets`库，用户可以简单地调用`load_dataset`函数加载数据集。而`seacrowd`库提供了更多灵活性，允许用户根据特定配置加载数据集，并查看所有可用的子集配置。具体使用方法包括导入库、加载数据集以及根据需要选择特定配置。更多详细信息可在SEACrowd的GitHub页面找到。

背景与挑战

背景概述

Indspeech Teldialog Svcsr数据集是首个针对印尼语的小词汇连续语音识别（SVCSR）数据集，由TELKOMRisTI（印尼电信的研发部门）与日本先进电信研究所以及万隆理工学院合作，于2004年基于亚太电信社区（APT）项目开发。该数据集最初旨在为听障和语障人士提供电信系统支持，但也被广泛应用于自动呼叫中心等其他领域，甚至可用于语音转换任务。数据集包含了20,000条语音记录，涵盖了100个句子，由200名年龄在20至40岁之间的男女发音者录制，涵盖了多种方言和民族口音。录音分为清晰语音和电话语音两种，但由于电话语音质量问题，目前仅开放清晰语音部分。

当前挑战

Indspeech Teldialog Svcsr数据集在构建过程中面临多重挑战。首先，数据集需处理印尼语中多样化的方言和口音，这对语音识别模型的泛化能力提出了高要求。其次，数据集的原始用途是为听障和语障人士设计，这意味着语音内容需高度标准化，以确保系统的可靠性和实用性。此外，数据集的构建还需克服录音质量不均的问题，特别是电话语音部分因质量不佳而未被公开。这些挑战不仅影响了数据集的可用性，也对后续研究提出了更高的技术要求。

常用场景

经典使用场景

在语音识别领域，SEACrowd/indspeech_teldialog_svcsr数据集因其针对小词汇量连续语音识别（SVCSR）的独特设计而备受瞩目。该数据集特别适用于开发和优化语音识别系统，尤其是在处理有限词汇量的对话场景中。例如，它可以用于构建自动呼叫中心系统，通过识别特定的对话词汇来提高服务效率。此外，由于所有发言者都使用相同的句子，该数据集还可应用于语音转换任务，为语音合成和转换技术提供基础数据支持。

衍生相关工作

SEACrowd/indspeech_teldialog_svcsr数据集的发布催生了一系列相关研究工作。例如，基于该数据集，研究者们开发了多种语音识别和语音转换算法，显著提升了这些技术在实际应用中的表现。此外，该数据集还被广泛用于多语言语音识别系统的研究，推动了跨语言语音识别技术的发展。在学术界，该数据集已成为评估语音识别模型性能的标准数据集之一，为后续研究提供了重要的参考依据。

数据集最近研究