BenAV

github2021-12-13 更新2024-05-31 收录

下载链接：

https://github.com/AnikNicks/BenAV-A-New-Bengali-Audio-Visual-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

BenAV是一个大规模的Bengali音频视觉数据集，用于视觉语音识别，包含超过100位说话者，26300个数据实例，总时长超过7小时，词汇量为50个单词。

BenAV is a large-scale Bengali audio-visual dataset designed for visual speech recognition. It encompasses over 100 speakers, 26,300 data instances, and totals more than 7 hours of audio-visual content, with a vocabulary of 50 words.

创建时间：

2021-07-14

原始信息汇总

数据集概述

数据集名称

BenAV - 一个新的孟加拉语视听语料库

数据集描述

BenAV 是一个专为视觉语音识别（VSR）设计的大型孟加拉语视听数据集。该数据集包含超过100位说话者的26,300个数据实例，总时长超过7小时，并包含50个词汇。据我们所知，BenAV 是首个针对孟加拉语的大型数据集。

数据集用途

辅助在噪声或缺失声学数据情况下的语音识别
帮助听力受损人士

数据集规模

说话者数量：超过100位
数据实例：26,300个
总时长：超过7小时
词汇量：50个词

研究论文

标题：BenAV: a Bengali Audio-Visual Corpus for Visual Speech Recognition
作者：Ashish Pondit, Muhammad Eshaque Ali Rukon, Anik Das, Muhammad Ashad Kabir
会议：International Conference on Neural Information Processing
年份：2021
页码：526-535
组织：Springer

搜集汇总

数据集介绍

构建方式

BenAV数据集的构建旨在填补孟加拉语在视觉语音识别领域的数据空白。该数据集通过收集超过100名说话者的音频和视频数据，共计26300个数据实例，总时长超过7小时，涵盖了50个词汇。数据采集过程中，研究人员确保了说话者的多样性和词汇的广泛性，以增强数据集的代表性和实用性。

特点

BenAV数据集的特点在于其规模大、多样性高，并且是首个专注于孟加拉语的大规模视听数据集。数据集不仅包含了丰富的音频和视频数据，还提供了详细的说话者信息和词汇表，为视觉语音识别研究提供了坚实的基础。此外，数据集的构建严格遵循了科学研究的规范，确保了数据的质量和可靠性。

使用方法

BenAV数据集的使用方法主要包括数据下载、预处理和模型训练。研究人员可以通过访问GitHub页面获取数据集，并按照提供的指南进行数据预处理。预处理步骤包括音频和视频的同步、特征提取等。随后，可以使用深度学习模型进行训练，以提升视觉语音识别的性能。数据集的使用需遵循相关引用规范，确保研究的透明性和可重复性。

背景与挑战

背景概述

BenAV数据集是首个针对孟加拉语的大规模音频-视觉语料库，由Ashish Pondit等研究人员于2021年提出，旨在推动视觉语音识别（VSR）领域的研究。该数据集包含超过100名说话者、26300个数据实例，总时长超过7小时，词汇量为50个单词。BenAV的创建填补了孟加拉语在视觉语音识别领域的数据空白，为开发基于孟加拉语的自动唇读系统提供了重要资源。该数据集的研究成果发表于国际神经信息处理会议（ICONIP），并得到了广泛关注。

当前挑战

BenAV数据集的核心挑战在于解决视觉语音识别领域中的语言多样性问题。当前主流VSR数据集主要集中于英语等少数语言，而孟加拉语等低资源语言的视觉语音数据极为稀缺。构建BenAV过程中，研究人员面临数据采集、标注和处理的复杂性挑战，尤其是在多说话者环境下确保音频与视频的同步性。此外，孟加拉语的语音特性（如音素复杂性和方言多样性）进一步增加了数据处理的难度。这些挑战不仅体现在数据集的构建过程中，也影响了基于该数据集的模型训练与性能优化。

常用场景

经典使用场景

在视觉语音识别（VSR）领域，BenAV数据集为研究者提供了一个大规模、高质量的孟加拉语音视频语料库。该数据集包含了超过100名说话者的26300个数据实例，总时长超过7小时，涵盖了50个词汇。这一数据集为开发基于孟加拉语的视觉语音识别系统提供了宝贵的资源，尤其是在语音数据缺失或噪声较大的环境下，BenAV能够有效支持唇读技术的应用。

解决学术问题

BenAV数据集的发布填补了孟加拉语视觉语音识别领域的数据空白，解决了该语言在视觉语音识别研究中缺乏大规模、多样化数据的问题。通过提供丰富的音视频数据，BenAV为研究者提供了训练和测试视觉语音识别模型的可靠基础，推动了该领域的技术进步。此外，该数据集还为跨语言视觉语音识别研究提供了新的可能性，促进了多语言语音识别技术的发展。

衍生相关工作

自BenAV数据集发布以来，已有多个研究团队基于该数据集开展了相关工作。例如，一些研究专注于改进孟加拉语视觉语音识别的模型架构，提出了基于深度学习的唇读算法。另一些研究则探索了跨语言视觉语音识别的可能性，利用BenAV数据集与其他语言的视觉语音数据进行对比分析。这些研究不仅验证了BenAV数据集的有效性，还推动了视觉语音识别技术的多样化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集