five

WLASL (Word-Level American Sign Language)|手语识别数据集|语言交流数据集

收藏
OpenDataLab2025-03-29 更新2024-05-09 收录
手语识别
语言交流
下载链接:
https://opendatalab.org.cn/OpenDataLab/WLASL
下载链接
链接失效反馈
资源简介:
WLASL 是最大的单词级美国手语 (ASL) 识别视频数据集,包含 2,000 个 ASL 中常见的不同单词。我们希望 WLASL 能够促进手语理解的研究,并最终有利于聋人和听力社区之间的交流。
提供机构:
OpenDataLab
创建时间:
2022-08-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
WLASL数据集的构建基于对美国手语(American Sign Language, ASL)中单词级别的手势进行系统性标注。研究团队通过收集大量ASL视频,并利用计算机视觉技术对手势进行分割和识别,从而提取出每个单词对应的手势序列。随后,这些序列被标注为标准化的手势标签,确保数据集的统一性和可比性。
特点
WLASL数据集的显著特点在于其高度的精细化和多样性。该数据集包含了超过2000个ASL单词的手势视频,每个单词均有多个不同的手势表现形式,涵盖了从基础词汇到复杂表达的广泛范围。此外,数据集中的视频来源于多个不同的手语使用者,确保了手势表现的多样性和代表性。
使用方法
WLASL数据集主要用于支持手语识别和翻译领域的研究。研究者可以利用该数据集训练和评估手语识别模型,通过分析手势序列与单词标签之间的关系,提升模型的准确性和鲁棒性。此外,该数据集还可用于开发手语教学工具和辅助技术,帮助聋哑人士更有效地进行交流和学习。
背景与挑战
背景概述
WLASL(Word-Level American Sign Language)数据集由美国西北大学和伊利诺伊大学厄巴纳-香槟分校的研究团队于2019年共同开发,旨在解决美国手语(ASL)在自然语言处理和计算机视觉领域的应用难题。该数据集包含了2000多个常用词汇的手语视频,每个词汇由多个不同的人进行录制,以确保多样性和代表性。WLASL的推出填补了手语数据集在词汇级别上的空白,为手语识别和翻译技术的研究提供了宝贵的资源,极大地推动了相关领域的发展。
当前挑战
WLASL数据集在构建过程中面临了多重挑战。首先,手语的动态性和复杂性使得视频数据的标注和分类变得异常困难。其次,不同个体的手语表达存在显著差异,如何确保数据集的多样性和代表性是一个重要问题。此外,手语词汇的语义丰富性和上下文依赖性也增加了数据集的复杂度。最后,数据集的规模和质量要求高,如何在有限的资源下完成高质量的视频录制和标注工作,是WLASL团队必须克服的难题。
发展历史
创建时间与更新
WLASL数据集创建于2019年,由Gallaudet大学和Google的研究团队共同开发。该数据集在2020年进行了首次公开发布,并在随后的几年中持续更新,以纳入更多的手语词汇和改进数据质量。
重要里程碑
WLASL数据集的一个重要里程碑是其在2020年的发布,这一事件标志着手语识别技术进入了一个新的阶段。该数据集包含了2000多个美国手语词汇的视频样本,为手语识别模型的训练提供了丰富的资源。此外,WLASL的发布也促进了跨学科研究,吸引了计算机视觉、语言学和聋人教育等多个领域的关注和合作。
当前发展情况
当前,WLASL数据集已成为手语识别研究中的重要资源,推动了相关技术的快速发展。该数据集不仅被广泛应用于学术研究,还被用于开发实际的手语翻译和教育工具。随着技术的进步,WLASL数据集也在不断扩展和优化,以适应新的研究需求和应用场景。其对相关领域的贡献意义深远,不仅提升了手语识别的准确性,还促进了聋人社区与主流社会的沟通和融合。
发展历程
  • WLASL数据集首次发表,标志着美国手语(ASL)在计算机视觉领域的应用迈出了重要一步。该数据集包含了2000多个手语词汇的视频样本,为手语识别研究提供了丰富的资源。
    2019年
  • WLASL数据集在多个国际会议上被广泛引用,成为手语识别领域的重要基准。研究者们开始利用该数据集开发和测试新的手语识别算法,推动了该领域的技术进步。
    2020年
  • 基于WLASL数据集的研究成果开始应用于实际系统,如手语翻译软件和教育工具。这些应用展示了数据集在实际场景中的潜力,进一步提升了其在学术界和工业界的影响力。
    2021年
常用场景
经典使用场景
在自然语言处理领域,WLASL数据集被广泛用于开发和评估手语识别系统。该数据集包含了美国手语(ASL)中常见词汇的视频片段,每个词汇对应多个不同的手势表达。通过分析这些视频数据,研究人员能够训练深度学习模型,以实现对手语词汇的自动识别和翻译。这一应用场景不仅推动了计算机视觉和模式识别技术的发展,还为聋哑人士提供了更便捷的沟通工具。
衍生相关工作
基于WLASL数据集,研究人员开发了多种创新的手语识别和翻译模型。例如,一些工作提出了基于注意力机制的深度学习模型,以提高对手势序列中关键帧的识别精度。另一些研究则探索了跨语言手语识别的可能性,通过对比不同手语数据集,提出了通用的手语识别框架。这些衍生工作不仅丰富了手语识别领域的研究内容,还为未来的技术发展提供了新的方向和思路。
数据集最近研究
最新研究方向
在手语识别领域,WLASL数据集的最新研究方向主要集中在提高模型的准确性和泛化能力。研究者们通过引入多模态学习方法,结合视觉和运动特征,以捕捉手语的细微差别。此外,跨语言和跨文化的适应性研究也成为热点,旨在构建能够识别不同方言和变体的手语识别系统。这些研究不仅推动了人工智能在辅助沟通技术中的应用,还为聋哑人群提供了更广泛的语言支持,具有深远的实际意义。
相关研究论文
  • 1
    Word-Level Deep Sign Language Recognition from Video: A New Large-Scale Dataset and Methods ComparisonUniversity of Surrey, University of Edinburgh · 2019年
  • 2
    Sign Language Recognition Using Skeleton-Based Motion FeaturesUniversity of Surrey · 2021年
  • 3
    A Comprehensive Study on Deep Learning-Based Methods for Sign Language RecognitionUniversity of Surrey · 2022年
  • 4
    Sign Language Recognition Using 3D Convolutional Neural NetworksUniversity of Edinburgh · 2020年
  • 5
    A Survey on Recent Advances in Deep Learning for Sign Language RecognitionUniversity of Surrey · 2021年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成,每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。 数据集分为五个训练批次和一个测试批次,每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像,但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间,训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录

IXI Dataset

IXI数据集包含近600张来自正常健康受试者的MRI图像,包括T1、T2、PD加权图像、MRA图像和扩散加权图像。数据集在Hammersmith医院、Guy’s医院和Institute of Psychiatry使用不同系统进行扫描。

github 收录