Vietnamese Multi-Dialect (ViMD) dataset
收藏arXiv2024-10-04 更新2024-10-08 收录
下载链接:
https://github.com/nguyen-dv/ViMD_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
越南多方言数据集(ViMD)是由越南胡志明市信息技术大学信息科学与工程学院创建的,旨在捕捉越南63个省的方言多样性。该数据集包含102.56小时的音频,约19,000条语音记录,转录文本超过120万字。数据集的创建过程包括视频收集、音频提取、半自动标注和严格的手动验证。ViMD数据集主要用于方言识别和语音识别任务,旨在解决越南多方言语音数据的识别挑战,特别是地理因素对方言的影响和当前语音识别方法在处理多方言数据时的局限性。
Vietnamese Multi-dialect Dataset (ViMD) was created by the School of Information Science and Engineering, Ho Chi Minh City University of Information Technology, Vietnam, with the aim of capturing the dialect diversity across Vietnam’s 63 provinces. This dataset contains 102.56 hours of audio, approximately 19,000 speech recordings, and over 1.2 million words of transcribed text. The dataset construction process includes video collection, audio extraction, semi-automatic annotation, and rigorous manual verification. Primarily intended for dialect identification and speech recognition tasks, ViMD aims to address the challenges in recognizing Vietnamese multi-dialect speech data, particularly the impact of geographic factors on dialects and the limitations of current speech recognition methods when processing multi-dialect datasets.
提供机构:
越南胡志明市信息技术大学信息科学与工程学院
创建时间:
2024-10-04
原始信息汇总
ViMD数据集概述
数据集简介
ViMD数据集(Vietnamese Multi-Dialect)是一个全面的数据资源,旨在捕捉越南63个省级方言的多样性。该数据集与论文《Multi-Dialect Vietnamese: Task, Dataset, Baseline Models, and Challenges》相关联。
数据来源
数据集的来源是越南63个省的广播电台的新闻节目。
数据集统计
- 总体统计:
- 统计图表:
- 统计图表:
数据集属性
| 键 | 描述 |
|---|---|
| set | 音频集:{train, valid, test}。 |
| filename | 文件名遵循语法 {province code}_{Sequence Number of Audio}。 |
| text | 音频的转录文本。 |
| length | 音频的长度(以秒为单位)。 |
| province | 省级方言代码。 |
| region | 区域方言:{North, Central, South}。 |
| speakerID | 说话人识别代码遵循语法 spk_{province code}_{Sequence Number of Speaker}。 |
| gender | 说话人性别(0代表女性,1代表男性)。 |
引用
如果使用该数据集进行研究,请引用以下内容: bibtex @misc{vandinh2024multidialectvietnamesetaskdataset, title={Multi-Dialect Vietnamese: Task, Dataset, Baseline Models and Challenges}, author={Nguyen Van Dinh and Thanh Chi Dang and Luan Thanh Nguyen and Kiet Van Nguyen}, year={2024}, eprint={2410.03458}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.03458}, }
搜集汇总
数据集介绍

构建方式
越南多方言数据集(Vietnamese Multi-Dialect, ViMD)的构建过程包括五个主要阶段:视频收集、音频提取、人工标注转录、质量控制和数据分割。首先,从官方电视台和广播站收集包含当地居民采访的视频作为数据源。随后,由10名信息技术背景的学生使用开源数据标注平台Label Studio将视频分割成包含当地发言人声音的短片段,并转换为.wav格式音频。转录阶段由10名具有不同语言背景的标注员进行半自动标注,并经过严格的人工校验以确保数据质量。最后,数据按8:1:1的比例分割为训练集、验证集和测试集,并存储在JSON格式的元数据中,包含说话人ID、性别等额外属性。
特点
ViMD数据集的显著特点在于其精细的方言分类,涵盖了越南63个省的方言,总计102.56小时的音频数据,包含约19,000条语音和超过120万字的转录文本。该数据集不仅提供了方言的地理分布信息,还通过说话人ID和性别等属性支持多种语音相关任务的研究。此外,数据集的构建过程中采用了严格的质量控制措施,确保了数据的准确性和可靠性。
使用方法
ViMD数据集可用于多种语音识别和方言识别任务。研究者可以通过该数据集训练和评估模型在越南多方言环境下的表现。具体使用方法包括:首先,加载数据集并根据需要选择训练集、验证集或测试集;其次,利用数据集中的音频和转录文本进行模型的训练和微调;最后,通过评估指标如F1-macro和WER来衡量模型在方言识别和语音识别任务中的性能。数据集的详细使用说明和代码示例可在相关文档中找到。
背景与挑战
背景概述
越南语作为一种低资源语言,通常被划分为北部、中部和南部三个主要方言组。然而,每个省份在这些地区内都有其独特的语音变体。尽管存在多种语音识别数据集,但没有一个数据集能够对越南63个省份的方言进行细致分类。为了填补这一空白,Nguyen Van Dinh等人于2024年引入了越南多方言(ViMD)数据集,这是一个全面的新数据集,捕捉了越南各地63个省级方言的丰富多样性。该数据集包含102.56小时的音频,约19,000个语音片段,以及超过120万个单词的转录文本。通过微调最先进的预训练模型,研究人员在方言识别和语音识别两个下游任务上提供了基准,并展示了数据集的挑战性。
当前挑战
ViMD数据集面临的挑战包括:1) 解决方言识别和语音识别任务中的多变体问题;2) 在构建过程中,确保数据集的质量和多样性,特别是通过半自动标注和严格的人工验证过程。此外,数据集还需应对性别不平衡、地域差异导致的语音变体复杂性,以及在低资源语言环境中进行有效模型训练的难题。
常用场景
经典使用场景
越南多方言数据集(Vietnamese Multi-Dialect (ViMD) dataset)最经典的使用场景在于其能够精细地分类越南63个省的方言。该数据集包含了102.56小时的音频数据,涵盖约19,000条语音记录,以及超过120万字的转录文本。通过这些数据,研究者可以进行方言识别(Dialect Identification)和语音识别(Speech Recognition)两大任务的基准测试。这不仅有助于理解越南方言的多样性,还能为多语言语音处理技术提供宝贵的资源。
解决学术问题
越南多方言数据集解决了低资源语言研究中的一个关键问题,即缺乏对越南各地方言的精细分类数据。传统的语音识别数据集通常只涵盖越南的三大方言区域(北部、中部和南部),而该数据集首次提供了对63个省方言的详细分类。这不仅有助于学术界深入研究越南方言的语音特征和地理分布,还为开发更精确的语音识别模型提供了基础数据。此外,该数据集的推出也促进了多语言语音处理技术的发展,特别是在处理多地方言数据时的挑战和解决方案。
衍生相关工作
越南多方言数据集的发布催生了一系列相关研究工作。例如,基于该数据集,研究者们开发了多种方言识别和语音识别模型,并进行了深入的性能分析和比较。此外,该数据集还激发了对越南方言语音特征的进一步研究,包括方言间的语音差异、地理因素对方言演变的影响等。这些研究不仅提升了语音识别技术的准确性,还为语言学研究提供了新的视角和方法。未来,随着更多基于该数据集的研究成果的涌现,预计将进一步推动越南语语音处理技术的发展和应用。
以上内容由遇见数据集搜集并总结生成



