SinhalaSpeechCorpus

github2019-03-16 更新2024-05-31 收录

下载链接：

https://github.com/SinhalaAssistant/SinhalaSpeechCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含8460个语音片段，涉及银行业务领域的六个意图。总数据量为10小时，来自215名说话者，其中152名男性，63名女性。每个意图及其变体都被详细列出。

This dataset comprises 8,460 audio clips, encompassing six intents within the banking sector. The total data volume amounts to 10 hours, contributed by 215 speakers, including 152 males and 63 females. Each intent and its variations are meticulously cataloged.

创建时间：

2018-11-11

原始信息汇总

数据集概述

数据集名称

SinhalaSpeechCorpus

数据集内容

语音片段数量：8460个
领域：银行业务
意图数量：6种
总时长：10小时
发言人数量：215人
- 男性：152人
- 女性：63人

意图及其变体

变体	意图
ගිණුමේ ශේෂය විමසීම	‘මගේ ගිණුමේ ශේෂය කීයද<br>,ගිණුමේ ශේෂය කීයද<br>,ශේෂය කීයද<br>,මගේ ගිණුමේ ඉතිරිය කීයද<br>,ගිණුමේ ඉතිරිය කීයද,ඉතිරිය කීයද<br>,මට මගේ ගිණුමේ ශේෂය දැනගන්න පුලුව්න්ද<br>,මට මගේ ගිණුමේ ඉතිරිය දැනගන්න පුලුව්න්ද’
මුදල් තැම්පත් කිරීමට විමසීම	මට සල්ලි තැන්පත් කරන්න ඕනි<br>, මට මුදල් තැන්පත් කරන්න ඕනි<br>, සල්ලි තැන්පත් කරන්න ඕනි<br>, මුදල් තැන්පත් කරන්න ඕනි<br>, සල්ලි දාන්න ඕනි<br>,සල්ලි තැන්පත් කිරීමක්<br>, මුදල් තැන්පත් කිරීමක්
මුදල් ලබා ගැනීමට කිරීමට විමසීම	මට සල්ලි ගන්න ඕනි<br>, සල්ලි ගන්න ඕනි<br>, මට මුදල් ගන්න ඕනි<br>, මුදල් ගන්න ඕනි<br>, මට මුදල් ගන්න පුලුවන්ද<br>, ‘මට සල්ලි ගන්න පුලුවන්ද<br>, මුදල් ගැනීමක්<br>, සල්ලි ගැනීමක්
බිල් ගෙවීම්	බිල් එකක් ගෙවන්න ඕනි<br>, මට බිල්පතක් ගෙවන්න ඕනි<br>, බිල්පතක් ගෙවන්න ඕනි<br>, බිල් ගෙවීමක්<br>, බිලක් ගෙවන්න පුලුවන්ද
ගිණුම් අතර මුදල් හුවමාරු කිරීම	තව ගිණුමකට මුදල් මාරු කරන්න ඕනි<br>, තව ගිණුමකට මුදල් මාරු කරන්න පුලුවන්ද<br>, වෙනත් ගිණුමකට මුදල් මාරු කිරීමක්<br>, වෙනත් ගිණුමකට සල්ලි මාරු කිරීමක්<br>, තව ගිණුමකට සල්ලි මාරු කරන්න ඕනි<br>, තව ගිණුමකට සල්ලි මාරු කරන්න පුලුවන්ද<br>, වෙනත් ගිණුමකට සල්ලි මාරු කිරීමක්
ණයපත් ගෙවීම්	හර පත් ගෙවීමක් කරන්න ඕනි<br>, මට හර පත් ගෙවීමක් කරන්න ඕනි<br>, ක්‍රෙඩිට් කාර්ඩ් එකට සල්ලි ගෙවන්න ඕනි<br>, මට ක්‍රෙඩිට් කාර්ඩ් එකට සල්ලි ගෙවන්න ඕනි

访问方式

联系作者获取数据集访问权限：
- 邮箱：sudeepa.14@cse.mrt.ac.lk
- 邮箱：ranula.14@cse.mrt.ac.lk
- 邮箱：darshana.14@cse.mrt.ac.lk
- 邮箱：hasini.14@cse.mrt.ac.lk

搜集汇总

数据集介绍

构建方式

SinhalaSpeechCorpus数据集是一项针对银行领域语音交互的研究成果，涵盖了8460个语音片段，涉及六个意图类别。该数据集通过精心设计，从215名男女（152男63女）说话者中收集了10小时的语音数据，旨在为银行领域的语音识别和自然语言处理任务提供丰富的资源。

特点

该数据集的特点在于其领域专一性，专注于银行领域的用户意图，如查询账户余额、存款、取款、支付账单、账户间资金转移以及信用卡还款等。每个意图都有多种表达方式，体现了语言的多样性和复杂性。此外，数据集的规模和质量均经过严格筛选，确保了研究的高效性和准确性。

使用方法

使用SinhalaSpeechCorpus数据集时，研究者首先需要联系作者获取数据集的访问权限。在获得授权后，可以通过标准的数据处理流程进行数据加载、预处理和模型训练等操作。数据集以语音片段和对应的意图标签形式组织，方便研究者进行语音识别和意图分类等任务的研究和开发。

背景与挑战

背景概述

SinhalaSpeechCorpus语音数据集，由斯里兰卡莫拉图瓦大学计算机科学与工程学院的研究团队创建于2014年。该数据集聚焦于银行领域的语音交互，旨在促进斯里兰卡僧伽罗语语音识别技术的发展。数据集包含了8460条语音片段，涉及215位 speakers（152位男性和63位女性），总时长约为10小时，涵盖六种银行领域的常见意向及其变化形式，为相关领域的研究提供了宝贵资源。

当前挑战

在构建SinhalaSpeechCorpus数据集的过程中，研究人员面临了多项挑战。首先，僧伽罗语的语音识别研究相对较少，导致相关数据集的缺乏，因此收集足够多样本是一项挑战。其次，语音数据的收集过程中，需要确保涵盖不同性别、年龄层次的多样性，同时保证语音样本的质量和清晰度。此外，数据集的构建还需解决标注一致性、数据隐私保护等问题。在研究领域问题方面，该数据集旨在提高僧伽罗语语音识别的准确性，但这需要克服僧伽罗语音韵复杂性、多变的发音习惯等自然语言的固有挑战。

常用场景

经典使用场景

SinhalaSpeechCorpus数据集作为一个涵盖了银行领域六种意图的语音剪辑集合，其经典使用场景主要集中于语音识别与自然语言处理领域。通过对该数据集的分析和训练，研究者能够开发出能够理解僧伽罗语（Sinhala）语音指令的智能系统，进而实现在银行服务场景中的自动语音应答服务，如查询账户余额、进行资金转账等操作，极大地提升了银行客户服务的效率和质量。

解决学术问题

该数据集解决了自然语言处理领域中的一个重要学术问题，即如何在多语言环境下，尤其是僧伽罗语这种非主流语言中实现高效的语音识别。通过提供大量的标注语音数据，SinhalaSpeechCorpus为研究者在语音识别模型的训练和评估上提供了可靠的数据支持，推动了相关领域的研究进展。此外，该数据集对于理解特定领域（如银行服务）的语言使用模式也具有重要意义。

衍生相关工作

基于SinhalaSpeechCorpus数据集，研究者们衍生出了多项相关工作，如僧伽罗语音识别模型的开发、跨语言的语音识别算法研究、以及特定领域（如银行服务）的语音助手系统的构建等。这些工作不仅推动了语音识别技术的进步，也为银行等服务业提供了创新的解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集