BAUST Lipi

Name: BAUST Lipi
Creator: 孟加拉国陆军科学技术大学
Published: 2024-08-20 11:35:42
License: 暂无描述

arXiv2024-08-20 更新2024-08-22 收录

下载链接：

https://shorturl.at/jklA9

下载链接

链接失效反馈

官方服务：

资源简介：

BAUST Lipi数据集由孟加拉国陆军科学技术大学创建，是一个包含18,000张图片的孟加拉手语（BdSL）数据集。该数据集涵盖36个孟加拉字母，包括30个辅音和6个元音，每张图片尺寸为224x224像素。数据集的创建过程涉及15名参与者，通过多种智能手机摄像头在不同背景下拍摄，确保了数据的多样性。该数据集主要用于机器学习、深度学习和计算机视觉领域，旨在提高孟加拉手语识别的准确性，促进聋哑人群与社会的交流。

提供机构：

孟加拉国陆军科学技术大学

创建时间：

2024-08-20

搜集汇总

数据集介绍

构建方式

为了推动孟加拉语手语（BdSL）的研究与发展，研究人员创建了一个名为BAUST Lipi的数据集。该数据集包含了18,000张孟加拉语字母的图像，每张图像尺寸为224x224像素。数据集的收集过程历时4至5个月，由15位参与者（男女各半）在不同的年龄组（23-26岁和40-50岁）中完成。图像采集使用了多种智能手机摄像头，并确保了多样化的背景和夜间条件下的拍摄。所有图像在数据收集前均获得了参与者的同意，并得到了孟加拉陆军科技大学（BAUST）的批准。

使用方法

为了使用BAUST Lipi数据集，研究人员首先对原始图像进行了预处理，包括图像大小的归一化、直方图均衡化以及噪声减少等。然后，图像被输入到一个混合深度学习模型中，该模型结合了卷积神经网络（CNN）和长短期记忆网络（LSTM）的优势。CNN用于从图像中提取特征，而LSTM则用于处理序列数据并识别手势。最后，研究人员通过调整超参数来优化模型的性能。为了验证数据集的有效性，研究人员在数据集上测试了多种算法，包括决策树、支持向量机（SVM）和卷积神经网络（CNN），并发现混合CNN-LSTM模型在测试中取得了97.28%的准确率，远高于其他算法。

背景与挑战

背景概述

随着全球化的发展，英语、阿拉伯语和孟加拉语等口语交流在全球范围内得到了广泛的应用。然而，聋人和听力受损者主要依赖于身体语言和手语来表达他们的需求和实现独立。为了提高与聋人社区沟通的能力，手语研究正在蓬勃发展。尽管许多研究人员在识别法语、英国、阿拉伯语、土耳其语和美国手语方面取得了进展，但在孟加拉语手语（BdSL）方面的研究相对较少，且成果不尽如人意。其中一个重要的障碍是缺乏一个全面的孟加拉语手语数据集。在我们的工作中，我们引入了一个新的BdSL数据集，其中包含18,000张图像，每张图像大小为224x224像素。我们的数据集涵盖了36个孟加拉语符号，其中30个是辅音，其余6个是元音。尽管我们的数据集做出了贡献，但许多现有系统仍然难以实现BdSL的高性能准确性。为了解决这个问题，我们设计了一个混合卷积神经网络（CNN）模型，集成了多个卷积层、激活函数、dropout技术和LSTM层。通过对新创建的BdSL数据集进行评估，我们的混合CNN模型实现了97.92%的准确率。我们相信，我们的BdSL数据集和混合CNN模型将成为BdSL研究的重要里程碑。

当前挑战

该数据集面临的挑战主要包括：1) 所解决的领域问题的挑战：尽管我们的数据集涵盖了36个孟加拉语符号，但孟加拉语手语的复杂性仍然给手语识别系统带来了挑战。2) 构建过程中所遇到的挑战：在数据集构建过程中，我们需要确保数据的质量和多样性，以便模型能够更好地学习和泛化。此外，我们还需要解决数据集的标注问题，以确保数据的准确性和可靠性。

常用场景

经典使用场景

BAUST Lipi数据集主要用于支持孟加拉手语（BdSL）的深度学习识别。这个数据集包含18,000张代表36个孟加拉字母的图像，每张图像大小为224x224像素。它包括30个辅音和6个元音。该数据集被用于训练和评估各种机器学习和深度学习模型，以实现对BdSL的高精度识别。

解决学术问题

BAUST Lipi数据集解决了孟加拉手语研究领域的一个关键问题：缺乏一个全面且高质量的公共数据集。这个数据集的创建为研究人员提供了一个宝贵的资源，用于开发和应用先进的机器学习和深度学习技术，以提高BdSL识别的准确性和鲁棒性。

实际应用

BAUST Lipi数据集的实际应用场景包括开发自动手语识别系统，这些系统可以帮助聋人和听力受损的人与听力正常的人进行交流。此外，该数据集还可以用于开发教育工具和应用程序，以帮助人们学习和理解孟加拉手语。

数据集最近研究