five

Sign Language Dataset Hub

收藏
github2026-03-27 更新2026-03-28 收录
下载链接:
https://github.com/rudra496/SignLanguage-Dataset-Hub
下载链接
链接失效反馈
官方服务:
资源简介:
一个经过验证的、包含73+手语数据集的目录,涵盖26种手语,是手语识别(SLR)研究、手势识别、聋人社区技术和辅助AI开发的最全面开放集合。

A validated directory of over 73 sign language datasets spanning 26 sign languages, this resource represents the most comprehensive open collection for Sign Language Recognition (SLR) research, gesture recognition, deaf community technologies, and assistive AI development.
创建时间:
2026-03-27
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Sign Language Dataset Hub
  • 数据集地址: https://github.com/rudra496/SignLanguage-Dataset-Hub
  • 核心描述: 一个经过整理和验证的手语数据集目录,涵盖26种手语,包含73个以上的数据集,是用于手语识别研究、手势识别、聋人社区技术和辅助人工智能开发的最全面的开放集合。
  • 许可证: 本仓库使用CC BY 4.0许可证。各个数据集有其自身的许可证。

数据集统计

  • 已验证数据集数量: 73
  • 涵盖手语种类: 26
  • 数据模态: 视频、图像、传感器、姿态、RGB-D、骨架、文本
  • 来源验证: 100%(所有URL均已检查)

数据集分类

按手语分类

语言 代码 数据集数量 代表性数据集
美国手语 ASL 11 MS-ASL, WLASL, How2Sign, OpenASL, ASLLVD
阿拉伯手语 ArSL 2 ArSL2018, KArSL
澳大利亚手语 Auslan 1 Auslan Signbank
孟加拉手语 BdSL 4 BdSL47, Ban-Sign-Sent-9K
巴西手语 Libras 2 Libras-UFPR, PHOENIX-Libras
英国手语 BSL 3 BOBSL, BSL Corpus, BSL SignBank
中国手语 CSL 2 DEVISIGN, USTC-CSL
荷兰手语 NGT 1 CNGT Corpus
法国手语 LSF 2 Dicta-Sign LSF, LSF-Dict
德国手语 DGS 3 RWTH-PHOENIX-2014, PHOENIX-2014T, DGS Corpus
希腊手语 GSL 1 GSL-50
印度手语 ISL 3 INCLUDE, ISL-CSLTR, ISL-Alphabet
爱尔兰手语 ISL 1 ISL Corpus
意大利手语 LIS 1 ATIS
日本手语 JSL 1 J-ASL
韩国手语 KSL 1 KETI
马来西亚手语 BIM 1 MSL Dataset
墨西哥手语 LSM 1 LSM Sign Language
俄罗斯手语 RSL 2 RuSLAN, RSL-Signs
瑞典手语 SSL 1 SSL Corpus
泰国手语 TSL 1 TSL-51
土耳其手语 TİD 1 AUTSL
多语言 5 SIGN-Hub, Dicta-Sign, SpreadTheSign, OpenSLR, SLP Toolkit
语言学数据库 6 ASL-LEX, BSL SignBank, Auslan Signbank等

按数据模态分类

模态 数量
视频 35+
图像 10+
视频 + RGB-D + 骨架 3
传感器(IMU/弯曲传感器) 1
语言学 / 词典 6+
多语言语料库 5+

验证政策

  • 所有数据集来源URL均已验证,确保可访问。
  • 样本数量来自原始出版物。
  • 每个数据集均包含对其创建者的引用或致谢。
  • 目录中不存在占位符或伪造链接。

仓库内容与工具

主要文件

  • DATASETS.md: 完整的已验证数据集目录(67个数据集),包含来源URL、样本数量、许可证和引用信息。
  • datasets_catalog.csv: 机器可读的目录。
  • STATISTICS.md: 详细的统计数据和细分。
  • docs/BENCHMARKS.md: 已发表的准确率数据(WER, BLEU, 准确率)。
  • docs/LICENSE_ATTRIBUTION.md: 每个数据集的许可证和引用信息。
  • docs/TUTORIALS.md: 包含9个从入门到高级的教程。

包含的工具

工具 描述 位置
数据加载器 用于传感器数据的PyTorch数据集类 scripts/data_loader.py
下载脚本 多源数据集下载器 scripts/download_datasets.py
可视化工具 传感器数据可视化 tools/visualize.py
数据生成器 演示数据创建工具 tools/generate_realistic_data.py

演示数据

  • 包含孟加拉手语传感器数据演示集(4,824个样本),位于 data/bdsl/BdSL-Sensor-Glove/

使用与引用

快速开始

克隆仓库并安装依赖后,可使用提供的Python脚本加载演示数据、浏览目录或下载外部数据集(例如来自Kaggle、Hugging Face、Zenodo)。

引用

如果使用此数据集目录,请引用: bibtex @misc{signlanguage_dataset_hub, title = {Sign Language Dataset Hub: A Verified Catalog of Sign Language Datasets}, author = {Sarker, Rudra and Contributors}, year = {2026}, url = {https://github.com/rudra496/SignLanguage-Dataset-Hub} }

使用时也必须引用原始数据集创建者

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理与计算机视觉交叉领域,手语数据集作为推动辅助技术发展的基石,其构建过程尤为关键。Sign Language Dataset Hub 通过系统化的元数据收集与验证机制构建而成,涵盖了超过73个公开可用的手语数据集,涉及26种不同的手语。每个数据集条目均经过严格的来源验证,确保所有链接有效且样本数量源自原始出版物,并附有准确的引用信息。该目录的构建遵循明确的收录规则,仅纳入可验证的数据集,排除了信息不完整或来源存疑的条目,从而形成了一个可靠且结构化的资源集合。
特点
该数据集的核心特征在于其全面性与严谨性。它不仅覆盖了美国手语、英国手语、中国手语等多种语言的数据,还包含了视频、图像、传感器、姿态、RGB-D、骨架序列以及文本词典等多种模态。每个数据集都标注了详细的元信息,如语言代码、样本数量、许可协议和原始出处。尤为突出的是其百分之百的链接验证率,所有收录资源的可访问性均得到确认,并提供了配套的数据加载、可视化工具以及从入门到高级的系列教程,为研究与应用提供了坚实的支撑。
使用方法
对于希望利用该资源的研究者与开发者,可通过克隆代码库并安装依赖快速开始。目录提供了机器可读的CSV文件,便于程序化筛选特定语言或模态的数据集。随附的Python脚本支持数据加载与可视化,例如可直接加载孟加拉手语传感器手套的演示数据进行模型原型开发。用户可根据需要,利用提供的脚本从Kaggle、Hugging Face或Zenodo等平台下载外部数据集,并参考详细的教程逐步构建从基础分类到连续手语识别的完整系统。
背景与挑战
背景概述
手语识别技术作为人机交互与辅助技术的关键领域,其发展长期受限于高质量、多语言数据资源的匮乏。Sign Language Dataset Hub 由 Rudra Sarker 等人于2025年发起并维护,旨在构建一个经过严格验证、涵盖26种手语、超过73个数据集的综合性开放目录。该数据集枢纽聚焦于解决手语识别、手势理解及面向听障群体的辅助人工智能开发中的核心数据瓶颈,通过整合视频、图像、传感器、姿态等多模态数据,为全球研究社区提供了标准化的资源入口,显著推动了跨语言手语技术的民主化进程与协同创新。
当前挑战
手语识别领域面临的核心挑战在于手语本身的时空复杂性、跨语言差异性以及语境依赖性,这使得构建高精度、鲁棒的识别模型尤为困难。在数据集构建层面,挑战主要体现在多语言数据收集的协调成本高昂、标注标准缺乏统一性、以及不同模态数据(如视频与传感器)的同步与对齐难题。此外,确保数据来源的可验证性、维护链接的长期有效性,并在尊重原始创建者许可协议的前提下实现资源的合规集成与共享,亦是该枢纽持续运营中必须应对的实际挑战。
常用场景
经典使用场景
在自然语言处理与计算机视觉的交叉领域,手语识别研究长期面临数据分散与标准缺失的挑战。Sign Language Dataset Hub通过整合涵盖26种手语、超过73个已验证数据集,为研究者提供了统一的资源入口。其经典使用场景在于支持端到端的手语识别模型训练,特别是针对连续手语识别与翻译任务,研究者可便捷调用多模态数据(如视频、骨骼关键点、传感器数据)构建鲁棒的识别系统。
实际应用
在实际应用层面,该资源库为开发面向听障群体的辅助技术提供了关键数据支撑。基于其整合的传感器数据与视频语料,工程师能够构建实时手语翻译系统、智能教育工具(如手语学习应用)以及沉浸式通信界面。例如,利用孟加拉手语传感器数据集可开发智能手套原型,将手势动作实时转化为文本或语音,有效促进听障人士在医疗、教育及公共服务场景中的无障碍沟通。
衍生相关工作
该枢纽已催生一系列经典研究工作,尤其在跨语言手语迁移学习与统一表征学习方向。研究者基于其提供的多语言对照语料(如SIGN-Hub、Dicta-Sign),开发了如SignBERT等预训练模型,实现了对手语时空特征的通用编码。同时,以PHOENIX-2014T和MS-ASL等高质量数据集为基准的连续手语识别竞赛,推动了如STMC、SFL等先进序列建模架构的演进,逐步缩小了手语与口语技术间的性能差距。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作