VAANI - Indian Sign Language Dataset

github2026-02-06 更新2026-02-12 收录

下载链接：

https://github.com/VishwakarmaVaibhav/Vaani-signlang-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

VAANI是一个社区驱动的项目，旨在构建一个大规模、开源的印度手语（ISL）数据集，用于AI训练。该平台允许用户通过摄像头记录手势，使用Google MediaPipe验证手势的可见性，确保高质量的数据收集。数据集支持多语言界面，包括英语、印地语和马拉地语，以鼓励来自印度不同地区的贡献者。

VAANI is a community-driven project aimed at building a large-scale, open-source Indian Sign Language (ISL) dataset for AI training. The platform enables users to record sign gestures via webcams, and verifies the visibility of the gestures using Google MediaPipe to ensure high-quality data collection. The dataset offers a multilingual interface including English, Hindi and Marathi, so as to encourage contributors from diverse regions across India.

创建时间：

2026-01-11

原始信息汇总

VAANI - 印度手语数据集收集器

数据集概述

VAANI 是一个旨在通过众包方式收集手势和手语数据的网络应用程序。该项目致力于构建一个大规模、开源的印度手语数据集，以用于人工智能训练，从而为聋哑社区开发准确的AI翻译工具。

核心目标

解决印度手语高质量、多样化数据集的缺乏问题，该问题是开发适用于聋哑社区的精确AI翻译工具的主要障碍。

关键技术特性

实时手部检测：集成 MediaPipe Hands 以即时检测手部关键点。仅当在画面中检测到手部时，“录制”按钮才会启用。
多语言支持：用户界面支持英语、印地语和马拉地语，以鼓励印度不同地区的贡献者参与。
安全的云存储：所有视频数据均使用 Supabase Storage 安全上传和存储。
管理仪表板：设有专用面板，用于验证、批准或拒绝提交的视频。
批量导出：已批准的数据集可以导出，用于训练机器学习模型。

数据收集流程

用户登录：用户进行身份验证（根据配置可选），以追踪贡献。
选择词语：用户从列表中选择一个单词/短语（例如“你好”、“谢谢”）。
手部检测：网络摄像头启动。MediaPipe 扫描手部关键点（每只手21个点）。
录制：一旦检测到手部，用户录制手势（3-5秒）。
提交：视频上传至 Supabase 存储桶，元数据存储在数据库中。

技术栈

组件	技术
前端	Next.js 14 (React 框架)
样式	Tailwind CSS
后端与认证	Supabase (PostgreSQL)
AI/ML	MediaPipe Hands (计算机视觉)
图标	Lucide React
部署	Vercel

项目状态与许可

项目状态：活跃开发中。
许可证：MIT 许可证。

搜集汇总

数据集介绍

构建方式

在印度手语资源相对匮乏的背景下，VAANI数据集通过众包方式构建，旨在为人工智能翻译工具提供高质量的训练数据。该平台利用Next.js框架开发，集成Google MediaPipe实时手部检测技术，确保用户在录制手势时手部始终位于画面内。用户从预设词汇列表中选择词语后，通过摄像头录制3至5秒的手语视频，数据经审核后存储于Supabase云端数据库，形成结构化的标注数据集。

使用方法

研究人员与开发者可通过访问项目GitHub仓库获取数据集及相关代码。本地部署需配置Node.js环境与Supabase数据库密钥，运行开发服务器后即可通过浏览器界面参与数据收集或使用已审核的数据。数据集适用于手语识别、姿态估计等计算机视觉任务，其结构化视频与关节点标注为模型训练提供了即用的高质量输入。导出后的数据可直接整合至TensorFlow或PyTorch等主流框架进行算法开发与性能评估。

背景与挑战

背景概述

印度手语数据集VAANI由VishwakarmaVaibhav等人于2024年发起，旨在通过社区众包方式构建大规模、开源的印度手语数据集，以解决人工智能翻译工具开发中数据稀缺的核心问题。该项目依托Next.js、Supabase和MediaPipe等技术栈，专注于采集高质量的手势视频数据，致力于为听障群体构建更精准的沟通桥梁，推动手语识别与自然语言处理领域的交叉研究。

当前挑战

该数据集致力于应对印度手语识别中词汇多样性、地域变体及动态手势建模的复杂性，其构建过程面临多重挑战：首先，众包数据采集需保障手势动作的规范性与一致性，避免因用户执行差异引入噪声；其次，实时手部检测依赖MediaPipe等计算机视觉模型，在复杂光照、遮挡或快速运动场景下可能影响数据质量；此外，多语言界面设计虽能提升数据贡献的包容性，但需协调不同文化背景下的手势语义标注标准，确保数据集的可靠性与泛化能力。

常用场景

经典使用场景

在计算机视觉与人工智能领域，VAANI数据集作为印度手语（ISL）的标准化资源，其经典使用场景聚焦于手语识别与翻译模型的训练与评估。研究者利用该数据集中的视频序列与手部关键点标注，构建深度学习模型以识别特定手势对应的词汇或短语，从而推动手语自动翻译系统的开发。这一过程通常涉及时序动作分类、三维姿态估计等技术，为跨模态人机交互研究提供了关键数据支撑。

解决学术问题

VAANI数据集有效解决了印度手语研究领域长期面临的数据稀缺与多样性不足的学术难题。通过社区众包方式收集的大规模、高质量手势视频，该数据集为训练鲁棒的手语识别模型提供了必要基础，显著降低了模型因数据偏差而产生的误识别率。其意义在于填补了非通用手语资源空白，促进了包容性人工智能的发展，为听力障碍群体的无障碍沟通技术研究开辟了新路径。

实际应用

在实际应用层面，基于VAANI数据集开发的系统可广泛应用于教育、公共服务与数字娱乐领域。例如，在教育场景中，该系统能够将教师授课内容实时转换为印度手语动画，辅助听障学生学习；在公共服务场所如医院或政府机构，手语翻译终端可帮助听障人士办理业务；此外，该技术也能集成至视频平台，为在线内容提供自动手语字幕，增强信息可及性。

数据集最近研究