keshavshankar/TCASL
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/keshavshankar/TCASL
下载链接
链接失效反馈官方服务:
资源简介:
TCASL是一个基于时间对比模拟的美国手语(ASL)图像分类数据集,通过软件技术模拟神经形态动态视觉传感器(DVS)的行为。每个样本是一个稀疏的、基于边缘的事件图,用于隔离手部运动并丢弃静态背景噪声。数据集旨在支持在消费级硬件上进行实时、低功耗的ASL手指拼写识别,无需专用事件摄像头或高端GPU。数据集包含26个类别(A-Z),总样本数为13,000,每个类别500个样本,分辨率为128×128像素的灰度图像。数据集由5名参与者录制,使用标准消费级网络摄像头,并通过后处理应用时间对比模拟。数据集的训练、验证和测试集分别包含10,400、1,300和1,300个样本。
TCASL is an American Sign Language (ASL) image classification dataset generated using temporal contrast emulation, a software technique that mimics the behavior of neuromorphic Dynamic Vision Sensors (DVS). Each sample is a sparse, edge-based event map that isolates hand motion and discards static background noise. The dataset was built to support real-time, low-power ASL finger-spelling recognition on consumer hardware without requiring specialized event cameras or high-end GPUs. The dataset contains 26 classes (A–Z), with 13,000 total samples (500 per class) at 128 × 128 px resolution (grayscale). It was recorded by 5 participants using standard consumer webcams, with temporal contrast emulation applied in post-processing. The dataset is split into 10,400 training, 1,300 validation, and 1,300 test samples.
提供机构:
keshavshankar
搜集汇总
数据集介绍

构建方式
TCASL数据集旨在推动低功耗、实时美国手语识别的发展,其构建过程独具匠心。该数据集并非通过传统RGB相机采集,而是采用时间对比度仿真技术,在软件层面模拟神经形态动态视觉传感器的行为。具体而言,通过对标准网络摄像头获取的连续视频帧进行像素级亮度差异计算,若变化幅度超过预设阈值θ,则记录为ON事件或OFF事件,从而生成仅保留手部运动轮廓的稀疏边缘事件图。五位手型各异的参与者贡献了每人每类100个样本,覆盖26个英文字母(A-Z),最终形成总计13,000张128×128像素的灰度图像。J和Z等动态字母仅捕捉最终手部位置以确保一致性,所有样本均经过人工审核以剔除模糊或错误手势。
特点
TCASL数据集的核心特点在于其神经形态表征与实用导向的完美结合。每一张样本都是稀疏的事件地图,白色像素代表亮度增加的ON事件,黑色像素代表亮度减弱的OFF事件,灰色背景则代表无运动区域,这种表示彻底消除了静态背景噪声,仅保留最具判别性的手部运动信息。数据集规模适中,包含10400个训练样本、1300个验证样本和1300个测试样本,且类别平衡(每类500张)。更重要的是,该数据集在消费级硬件上展现出卓越性能:专用SDNN模型在测试集上达到98.3%的准确率,并在Apple M1笔记本CPU上以超过200 FPS的速度运行,无需GPU加速,充分体现了其面向边缘计算场景的轻量化与高效性。
使用方法
TCASL数据集的使用极为便捷,完全兼容Hugging Face生态。用户仅需通过`load_dataset`函数即可一键加载,例如执行`ds = load_dataset("keshavshankar08/TCASL")`即可获取完整数据集。加载后,可通过`ds["train"]`访问训练集,每个样本包含`image`(PIL图像对象)和`label`(整数标签)两个字段。标签名称可通过`train.features["label"].names`获取,映射至英文字母a-z。数据集以标准图像分类格式组织(按类别分文件夹),适合直接用于训练各类计算机视觉模型,从传统的卷积网络如LeNet-5到先进的混合Transformer和脉冲神经网络。在具体应用中,用户可将其作为手语识别研究的基准测试集,或结合TCASL Learner游戏应用进行实时手指拼写识别实践。
背景与挑战
背景概述
TCASL(Temporal Contrast ASL Dataset)是一个面向美国手语(ASL)指拼字母图像分类的数据集,由Keshav Shankar与Nathaniel Ginck于2026年创建。该数据集通过时间对比模拟技术,将标准网络摄像头捕获的连续帧转化为模拟神经形态动态视觉传感器(DVS)输出的稀疏边缘事件图,仅保留手部动态轮廓,摒弃静态背景噪声。核心研究问题在于如何利用低功耗、低计算成本的设备实现实时手语识别,从而推动手语翻译工具在消费级硬件上的普及。数据集包含26个字母类别(A-Z),共13,000张128×128像素的灰度图像,由5名参与者使用普通网络摄像头采集,经手动质检确保质量。TCASL为神经形态视觉与手语识别的交叉研究提供了标准化基准,其配套的实时“拼字游戏”应用展示了在边缘设备上实现高帧率、低延迟意图理解的可行性,对普适计算与无障碍交互领域具有显著影响力。
当前挑战
TCASL所解决的领域核心挑战在于,传统手语识别通常依赖高帧率RGB视频流或专用事件相机,导致能耗高昂且难以部署于低成本终端。该数据集的构建过程面临多重技术难点:其一,需在软件层面精确模拟DVS事件生成机制,通过像素级亮度差阈值θ实现可控的噪声过滤与运动捕捉,避免过度稀疏或保留冗余;其二,动态手语字母(如J与Z)含有连续运动轨迹,为维持与静态字母的数据一致性,仅捕获最终手势位置,这要求决策是否遗漏了时序运动信息;其三,参与者仅5人且手型有限,需通过数据增强和跨个体泛化验证来缓解过拟合风险;此外,手工质检13,000张样本以确保无模糊帧或错误手势,过程繁琐且依赖人工,可能引入标注偏差。这些挑战共同指向如何在资源受限条件下平衡数据质量、代表性及模拟真实性。
常用场景
经典使用场景
TCASL数据集专为基于事件的美国手语(ASL)图像分类任务而设计,其核心特色在于采用时间对比度仿真技术,将传统摄像头捕获的视频帧转化为稀疏的边缘事件图,模拟神经形态动态视觉传感器的输出。该数据集包含26个字母类别(A-Z),共计13,000张128×128像素的灰度图像,每类500个样本,并划分为训练集(10,400张)、验证集(1,300张)和测试集(1,300张)。经典使用场景聚焦于在消费级硬件上实现实时、低功耗的手指拼写识别,模型无需依赖专用事件相机或高端GPU,即可从高度压缩的运动边缘特征中精准解码手部姿态,推动轻量化视觉识别系统在资源受限环境中的部署。
衍生相关工作
围绕TCASL数据集,衍生出了一系列在算法与系统层面的代表性工作。最直接的关联成果是与数据集同步发布的定制化深度脉冲神经网络(SDNN),在测试集上达到98.3%的准确率,并能在CPU上以超过200 FPS运行。此外,基准测试对比了多种经典架构,包括LeNet-5(82.3%)、混合Transformer(92.5%)、RG-CNN(96.8%)以及基于替代梯度训练的STBP-SNN(98.6%),这些结果为后续研究提供了扎实的参考基线。受TCASL启发,学术界与工业界开始探索将时间对比度仿真应用于更多动态手势识别数据集,并尝试结合图神经网络与脉冲编码策略来进一步提升稀疏事件流的表征能力,逐步构建从数据生成到高效推理的全链路类脑视觉解决方案。
数据集最近研究
最新研究方向
当前,TCASL数据集正引领着基于事件驱动视觉的手势识别研究向轻量化与边缘端部署迈进。该数据集通过时域对比仿真技术,将传统RGB摄像头的连续帧转化为模拟神经形态传感器的事件流,仅保留动态手势的边缘轮廓,大幅压缩数据冗余。这一创新不仅降低了模型对高端GPU的依赖,更在标准笔记本电脑CPU上实现了超200 FPS的实时手指拼写识别,准确率高达98.3%。随着低功耗脉冲神经网络(SNN)与混合架构的融入,TCASL为隐私保护、低延迟的辅助通信技术开辟了新路径,尤其推动了边缘AI在无障碍交互领域的落地方案。其研究意义在于验证了软件级事件仿真替代昂贵专用硬件的可行性,并为大规模手语词汇集的实时翻译奠定了数据与算法基础。
以上内容由遇见数据集搜集并总结生成



