five

SEACrowd/mywsl2023

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/mywsl2023
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含马来西亚手语(XML)中十个常用词的手势图片。手势由五位来自不同种族且精通XML的大学生完成。每个手势类别包含350个实例。数据集支持手语识别任务。

该数据集包含马来西亚手语(XML)中十个常用词的手势图片。手势由五位来自不同种族且精通XML的大学生完成。每个手势类别包含350个实例。数据集支持手语识别任务。
提供机构:
SEACrowd
原始信息汇总

Mywsl2023 数据集概述

基本信息

  • 名称: Mywsl2023
  • 语言: xml
  • 任务类别: 手语识别
  • 标签: 手语识别
  • 许可证: Creative Commons Attribution 4.0 (cc-by-4.0)

数据集描述

  • 包含与马来西亚手语(XML)中十个常用词汇对应的350个手势图片。
  • 手势由五名来自不同族群且精通XML的大学学生完成。

支持的任务

  • 手语识别

数据集版本

  • 源版本: 1.0.0
  • SEACrowd版本: 2024.06.20

引用

  • 使用该数据集时,请引用以下文献:

    @article{JOHARI2023109338, title = {MyWSL: Malaysian words sign language dataset}, journal = {Data in Brief}, volume = {49}, pages = {109338}, year = {2023}, issn = {2352-3409}, doi = {https://doi.org/10.1016/j.dib.2023.109338}, url = {https://www.sciencedirect.com/science/article/pii/S2352340923004560}, author = {Rina Tasia Johari and Rizauddin Ramli and Zuliani Zulkoffli and Nizaroyani Saibani}, keywords = {Dataset, Hand gestures, Sign language, Image data}, }

    @article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总
数据集介绍
main_image_url
构建方式
在马来西亚手语识别研究领域,Mywsl2023数据集的构建体现了严谨的学术规范。该数据集聚焦于十个常用马来西亚手语词汇,通过采集五位来自不同族裔背景且精通该手语的大学生所演示的手势图像而构建。每个手势类别均包含350个实例,确保了数据在类别内的充分代表性,为模型训练提供了稳定且多样化的视觉素材基础。
使用方法
研究人员可通过多种技术途径便捷地使用该数据集。最直接的方法是调用`datasets`库,使用`load_dataset`函数并指定数据集名称即可加载。对于专注于东南亚语言研究的用户,亦可利用`seacrowd`库进行加载,该库支持通过默认配置或指定配置名称的方式获取数据,并提供了查看所有可用数据子集的功能,便于进行更细粒度的实验设计与分析。
背景与挑战
背景概述
手语识别作为计算机视觉与人工智能交叉领域的重要分支,致力于通过技术手段解析和翻译手语动作,以促进听障人士与健听人群的无障碍沟通。Mywsl2023数据集由马来西亚研究人员于2023年创建,聚焦于马来西亚手语(XML)的词汇识别,收录了五名不同族裔大学生演示的十个常用词汇手势图像,每个类别包含350个实例。该数据集的构建旨在填补东南亚地区手语数据资源的空白,为跨文化手语识别研究提供关键支持,推动多模态人机交互技术的发展。
当前挑战
手语识别领域面临着手势的时空变异性和跨文化差异等固有挑战,Mywsl2023数据集针对马来西亚手语词汇分类问题,需克服手势因表演者个体差异、光照条件及背景干扰导致的识别复杂性。在数据集构建过程中,研究人员需协调不同族裔参与者的手势一致性,确保数据标注的准确性与标准化,同时应对图像采集环境的多变性和数据平衡性的维护,这些因素共同构成了数据集开发与应用的技术难点。
常用场景
经典使用场景
在马来西亚手语识别研究领域,Mywsl2023数据集为手势图像分类任务提供了标准化的基准资源。该数据集收录了十类常用马来西亚手语词汇的手势图像,每类包含350个实例,由五位不同族裔的熟练使用者演示,确保了数据的多样性和代表性。研究者通常利用该数据集训练卷积神经网络等深度学习模型,以评估模型在跨文化手势识别任务中的准确性和鲁棒性,为手语自动识别系统的开发奠定数据基础。
解决学术问题
该数据集有效解决了手语识别研究中数据稀缺与标准化不足的学术难题。通过提供高质量、标注规范的马来西亚手语图像数据,它支持研究者探索小样本学习、跨文化手势差异建模以及光照、背景变化下的模型泛化能力等关键问题。其多族裔使用者参与采集的特点,为研究手势表现的文化变异性和个体差异性提供了实证基础,推动了手语计算语言学领域的理论发展。
实际应用
在实际应用层面,Mywsl2023数据集为开发面向马来西亚听障社群的辅助技术系统提供了核心数据支持。基于该数据集训练的模型可集成到实时手语翻译应用、智能教育工具或无障碍通信设备中,帮助打破听障人士与健听人群之间的交流壁垒。例如,在教育场景中,该系统可辅助手语学习者进行词汇识别练习;在公共服务场所,它能实现基础的手语到文本或语音的实时转换,提升社会包容性。
数据集最近研究
最新研究方向
在马来西亚手语识别领域,Mywsl2023数据集正推动跨文化手势建模的前沿探索。该数据集聚焦于多民族背景下的手语图像,为研究手势的个体差异与文化适应性提供了关键资源。当前研究热点集中于利用深度学习模型,如卷积神经网络与视觉变换器,提升对复杂手势特征的泛化能力,并探索小样本学习在低资源手语识别中的应用。这些进展不仅促进了东南亚地区手语技术的包容性发展,也为全球多语言手语系统的构建提供了实证基础,具有重要的社会与技术意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作