MM-WLAuslan

Name: MM-WLAuslan
Creator: 昆士兰大学
Published: 2024-10-25 19:45:38
License: 暂无描述

arXiv2024-10-25 更新2024-10-31 收录

下载链接：

https://arxiv.org/abs/2410.19488v1

下载链接

链接失效反馈

官方服务：

资源简介：

MM-WLAuslan是由昆士兰大学创建的澳大利亚手语识别的首个大规模多视角多模态词级数据集。该数据集包含282,900个视频，涵盖3,215个常用Auslan词汇，由73名手语者在一个配备绿色背景的录音棚中录制。数据集的创建过程包括使用三种Kinect-V2摄像头和一个RealSense摄像头从多个角度同时录制视频，确保数据的多样性和高质量。MM-WLAuslan旨在解决澳大利亚手语的自动识别问题，推动手语教育和研究的发展。

MM-WLAuslan is the first large-scale multi-view multi-modal word-level dataset for Australian Sign Language (Auslan) recognition, developed by the University of Queensland. This dataset contains 282,900 videos covering 3,215 common Auslan vocabulary items, which was recorded by 73 signers in a green-screen-equipped studio. The dataset creation process involved simultaneous multi-angle video capture using three Kinect-V2 cameras and one RealSense camera, ensuring the diversity and high quality of the collected data. MM-WLAuslan aims to address the automatic recognition of Auslan and promote the development of sign language education and research.

提供机构：

昆士兰大学

创建时间：

2024-10-25

搜集汇总

数据集介绍

构建方式

MM-WLAuslan数据集的构建采用了多视角多模态的方法，通过在工作室环境中布置三个Kinect-V2摄像头和一个RealSense摄像头，形成半球形环绕布局，以捕捉澳大利亚手语（Auslan）的多视角和多模态数据。具体而言，数据集记录了282K+的手语视频，涵盖了3,215个常用的Auslan词汇，由73名手语者参与录制。每个视频均由至少一名Auslan专家监督，以确保手语表达的准确性。

使用方法

MM-WLAuslan数据集适用于多种手语识别任务的训练和评估，包括单视角和多视角的RGB和RGB-D视频分析。研究者可以利用该数据集开发和测试新的手语识别算法，特别是在多模态融合和多视角学习方面。此外，数据集的分层测试集设计，能够模拟真实世界中的多种场景，为手语识别系统的鲁棒性评估提供了有力支持。

背景与挑战

背景概述

MM-WLAuslan数据集是由昆士兰大学的一组研究人员于2024年创建的，旨在填补澳大利亚手语（Auslan）在孤立手语识别（ISLR）任务中缺乏大规模词级数据集的空白。该数据集包含了282,000多个手语视频，涵盖了3,215个常用的Auslan词汇，由73名手语者在一个工作室环境中录制。MM-WLAuslan数据集的独特之处在于其多视角和多模态的录制方式，使用了三个Kinect-V2摄像头和一个RealSense摄像头，从不同角度捕捉手语者的动作。这一数据集的创建不仅为Auslan的研究和应用提供了丰富的资源，还推动了全球手语识别技术的发展。

当前挑战

MM-WLAuslan数据集在构建过程中面临了多重挑战。首先，多视角和多模态数据的整合增加了数据处理的复杂性，需要开发新的算法来有效利用这些数据。其次，数据集的规模和词汇量的扩展使得模型的训练和验证变得更加困难，需要高效的计算资源和优化的训练策略。此外，数据集的多样性要求模型具有较强的泛化能力，以应对不同手语者和不同环境下的手语识别任务。最后，数据集的录制和标注过程需要高度的专业性和精确性，以确保数据的质量和可靠性。

常用场景

经典使用场景

MM-WLAuslan数据集的经典使用场景在于其为澳大利亚手语（Auslan）的孤立手势识别（ISLR）提供了丰富的多视角和多模态数据。通过在工作室环境中使用三个Kinect-V2摄像头和一个RealSense摄像头，该数据集捕捉了超过282,000个手势视频，涵盖3,215个常用的Auslan词汇。这种多视角和多模态的记录方式使得研究人员能够开发出更加鲁棒和准确的手语识别系统，特别是在处理复杂手势和减少遮挡问题方面。

解决学术问题

MM-WLAuslan数据集解决了澳大利亚手语领域缺乏大规模词汇级数据集的问题。其丰富的数据量和广泛的词汇覆盖为ISLR任务提供了坚实的基础，有助于推动澳大利亚手语及其在全球范围内手语研究的发展。此外，多模态和多视角的数据记录方式为研究复杂手势识别和遮挡问题提供了新的视角和方法，从而提升了手语识别系统的性能和鲁棒性。

实际应用

MM-WLAuslan数据集在实际应用中具有广泛的前景，特别是在手语教育和翻译领域。通过提供多视角和多模态的手语视频，该数据集可以帮助开发更加准确和高效的手语翻译系统，从而促进聋哑人与听觉正常人之间的沟通。此外，该数据集还可以用于手语教学，通过多视角的演示帮助学习者更好地理解和掌握手语。

数据集最近研究