SEACrowd/tha_lotus

Name: SEACrowd/tha_lotus
Creator: SEACrowd
Published: 2024-06-24 13:28:00
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/tha_lotus

下载链接

链接失效反馈

官方服务：

资源简介：

Tha Lotus语料库设计用于开发大词汇量连续语音识别（LVCSR）、口语对话系统、语音听写和广播新闻转录。它包含两个数据集，一个用于训练声学模型，另一个用于训练语言模型。数据集的语言为泰语（tha），支持的任务是语音识别。

提供机构：

SEACrowd

原始信息汇总

Tha Lotus 数据集

概述

名称: Tha Lotus
语言: 泰语 (tha)
任务类别: 语音识别 (speech-recognition)
标签: 语音识别 (speech-recognition)

描述

Tha Lotus 数据集是为开发大词汇量连续语音识别 (LVCSR)、口语对话系统、语音听写和广播新闻转录而设计的。该数据集包含两个子数据集，一个用于训练声学模型，另一个用于训练语言模型。

支持的任务

语音识别 (Speech Recognition)

数据集版本

源版本: 1.0.0
SEACrowd 版本: 2024.06.20

许可证

Creative Commons Attribution Non Commercial Share Alike 3.0 (cc-by-nc-sa-3.0)

引用

@INPROCEEDINGS{thaiLOTUSBN, author={Chotimongkol, Ananlada and Saykhum, Kwanchiva and Chootrakool, Patcharika and Thatphithakkul, Nattanun and Wutiwiwatchai, Chai}, booktitle={2009 Oriental COCOSDA International Conference on Speech Database and Assessments}, title={LOTUS-BN: A Thai broadcast news corpus and its research applications}, year={2009}, volume={}, number={}, pages={44-50}, doi={10.1109/ICSDA.2009.5278377}}

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

SEACrowd/tha_lotus 数据集，旨在促进大型词汇连续语音识别系统的研究与开发，包含两个子集，分别用于声学模型训练和语言模型训练。该数据集的构建以广播新闻语音为来源，经过严格的语音采集、标注与处理流程，确保了数据的质量与可用性。

特点

该数据集具备以下显著特点：首先，其覆盖了丰富的广播新闻内容，为语音识别研究提供了多样化的语音样本；其次，数据集遵循Creative Commons Attribution Non Commercial Share Alike 3.0许可，保证了数据的开放性与共享性；最后，其支持多种加载方式，包括使用datasets库和seacrowd库，增加了数据的易用性。

使用方法

在使用SEACrowd/tha_lotus 数据集时，用户可利用datasets库或seacrowd库进行数据加载。通过datasets库，可以简单地调用load_dataset函数加载整个数据集；而seacrowd库则提供了更灵活的配置选项，用户可根据具体需求加载不同的数据子集。详细的使用指南与配置选项可参考数据集的官方文档与GitHub页面。

背景与挑战

背景概述

SEACrowd/tha_lotus数据集，又名Tha Lotus，是一项针对泰国大型词汇连续语音识别（LVCSR）的研究成果，旨在推动语音对话系统、语音听写以及广播新闻广播转录等领域的发展。该数据集由SEACrowd团队于2009年设计，并包含了两个子集，分别用于训练声学模型和语言模型。该数据集的创建对于泰国语言资源的丰富和语音识别技术的进步产生了显著影响，为相关领域的研究提供了宝贵的资源。

当前挑战

在构建SEACrowd/tha_lotus数据集的过程中，研究人员面临了多项挑战。首先，如何收集和整理大量的连续泰国语语音数据是一个重大挑战。其次，确保数据的质量和多样性，以便能够覆盖广泛的语言变体和说话人，同样是一项艰巨的任务。此外，数据集构建中的标注和校对工作也极具挑战性，需要耗费大量的人力和时间资源。在研究领域问题方面，该数据集旨在提高LVCSR的性能，但如何准确评估和优化系统的识别准确性、效率和鲁棒性，仍然是当前研究的重要挑战。

常用场景

经典使用场景

在语音识别领域，SEACrowd/tha_lotus数据集被广泛应用于开发大规模词汇连续语音识别（LVCSR）系统，包括口语对话系统、语音听写以及广播新闻转录等。该数据集通过提供大量的泰语连续语音样本，为研究者提供了一个丰富的资源平台，使其能够训练出准确度更高的声学模型和语言模型。

衍生相关工作

基于SEACrowd/tha_lotus数据集，研究者们开展了一系列相关工作，如构建泰语语音识别模型、语音合成系统以及跨语言语音识别技术等。这些工作不仅扩展了该数据集的应用范围，也推动了整个东南亚语言处理领域的研究进展。

数据集最近研究