SignIT

Name: SignIT
Creator: 卡塔尼亚大学
Published: 2025-12-16 23:21:33
License: 暂无描述

arXiv2025-12-16 更新2025-12-18 收录

下载链接：

https://fpv-iplab.github.io/SignIT/

下载链接

链接失效反馈

官方服务：

资源简介：

SignIT是由意大利卡塔尼亚大学团队构建的意大利手语(LIS)识别数据集，包含644条总时长3.33小时的视频数据，涵盖动物、食物、颜色等5个宏观类别下的94种精细手势。数据集通过公开网络视频收集，经人工分割标注并提取人体2D关键点（手部/面部/身体），形成约99,000帧的多模态数据。该数据集旨在解决意大利手语识别领域数据匮乏问题，为计算机视觉和时序建模算法提供基准测试平台，推动无障碍通信技术的发展。

SignIT is an Italian Sign Language (LIS) recognition dataset constructed by the team from the University of Catania, Italy. It contains 644 video clips with a total duration of 3.33 hours, covering 94 fine-grained gestures under 5 macro categories including animals, food, and colors. The dataset is collected from public online videos, then manually segmented and annotated, with 2D human keypoints (hands, face and body) extracted, forming a multimodal dataset of approximately 99,000 frames. This dataset aims to address the shortage of available data in the field of Italian Sign Language recognition, provide a benchmark platform for computer vision and temporal modeling algorithms, and promote the development of accessible communication technologies.

提供机构：

卡塔尼亚大学

创建时间：

2025-12-16

原始信息汇总

SignIT数据集概述

数据集基本信息

数据集名称：SignIT
核心任务：意大利手语（LIS）识别
发布年份：2025年
论文标题：SignIT: A Comprehensive Dataset and Multimodal Analysis for Italian Sign Language Recognition
论文地址：https://arxiv.org/abs/2512.14489
作者机构：
- LIVE@IPLab, Department of Mathematics and Computer Science - University of Catania, Italy
- Next Vision s.r.l., Spin-off of the University of Catania, Italy
联系方式：micieli.alessia@studium.unict.it

数据集内容与规模

视频总量：644个视频
总时长：3小时34分钟（3.33小时）
标注帧总数：约99,000帧
手势类别：94个不同的意大利手语（LIS）手势类别
宏观类别：5个宏观类别，包括动物、食物、颜色、情感和家庭。

数据采集与处理

视频来源：从公开视频中收集，每个视频包含单个手语者执行多个LIS手势。
视频处理：手动分割为单个片段，每个片段对应一个手势实例。
录制环境：在37个不同的室内环境中录制，背景和照明条件存在差异。
视频规格：
- 分辨率范围：426×240 至 1024×1024 像素
- 帧率范围：24 至 30 FPS
预处理：应用模糊预处理步骤以消除背景中的文本线索（例如标签）。

数据标注与模态

标注依据：根据94个手势类别进行标注。
2D关键点：使用MediaPipe为每一帧提取，包括：
- 每只手21个手部关键点
- 51个面部关键点（嘴唇、鼻子、眼睛、眉毛、轮廓）
- 33个身体关键点（上半身姿态）
多模态支持：支持基于姿态和基于外观的LIS识别方法。

数据集划分

训练集：311个视频（约1小时43分钟），占比48.5%
验证集：138个视频（约46分钟），占比21.2%
测试集：195个视频（约1小时05分钟），占比30.3%
分布一致性：视频数量和总标注帧数（≈99k帧）的分布保持一致。

类别分布详情

宏观类别与具体类别

动物（32类）：驴、狗、山羊、马、鳄鱼、兔子、大象、蝴蝶、母鸡、猫、长颈鹿、狮子、蜗牛、狼、猪、牛、鹅、熊、鹦鹉、绵羊、鱼、蜘蛛、青蛙、猴子、蛇、乌龟、老虎、老鼠、公牛、鸟、斑马、公鸡。
食物（20类）：牛奶、葡萄酒、水、肉、水果、面包、意大利面、鱼、披萨、米饭、盐、蔬菜、菠萝、西瓜、香蕉、糖果、巧克力、苹果、梨、蛋糕。
颜色（17类）：橙色、浅蓝色、白色、蓝色、浅色、颜色、黄色、灰色、棕色、黑色、粉色、红色、深色、绿色、紫色、天蓝色、紫红色。
情感（5类）：恐惧、厌恶、快乐、愤怒、悲伤。
家庭（20类）：家庭、儿子/女儿、兄弟、妈妈、爸爸、姐妹、侄子/侄女、叔叔、表亲、祖父、祖母、姐夫/妹夫、亲戚、阿姨、男朋友/女朋友、丈夫、妻子、女婿、父母、儿媳。

分布特征

类别不平衡：部分类别（如动物、食物）呈现长尾分布。常见类别（如“狗”、“香蕉”）样本数超过1200-1500个，而稀有手势样本数少于200个。
颜色类别：分布较为均匀。
情感类别：仅包含5个类别，频率差异显著（例如“愤怒”最为常见）。

各宏观类别视频数量占比

动物：180个视频，占比34%（32类）
食物：75个视频，占比21.3%（20类）
颜色：196个视频，占比18.1%（17类）
情感：42个视频，占比5.3%（5类）
家庭：151个视频，占比21.3%（20类）

基准测试与模型

评估指标：准确率、精确率、召回率和F1分数（以考虑类别不平衡）。
基准模型：
- K-NN：基于连接并归一化的手部、面部和身体2D关键点特征向量的K近邻分类器。
- MLP：使用与K-NN相同关键点特征的三层全连接网络。
- ResNet18：直接从RGB图像预测手势的2D卷积网络。
- I3D：处理调整为224×224像素的16个连续帧片段的3D卷积网络。
- LLaVA-OneVision：使用RGB帧、相关姿态关键点和基于类别提示对LIS手势进行分类的多模态大语言模型（Qwen2-7B）。

数据下载

所有文件均以ZIP格式压缩提供，包含以下组件：

RGB Frames
RGB Frames (with Pose)
2D Keypoints (Hands)
2D Keypoints (Body)
2D Keypoints (Face)
CSV Macro
CSV Micro

致谢与支持

支持方：Next Vision s.r.l. 以及卡塔尼亚大学2024/2026年研究计划（项目“Multi-Agent Simulator for Real-Time Decision-Making Strategies in Uncertain Egocentric Scenarios”）。

搜集汇总

数据集介绍

构建方式

在意大利手语识别研究领域，数据资源的稀缺长期制约着相关技术的发展。SignIT数据集的构建旨在填补这一空白，其采集过程系统性地从公开网络资源中筛选了644个视频，这些素材源自45位不同使用者，累计时长约3.33小时。所有视频均在室内环境下录制，涵盖了37个不同的场景，确保了背景与光照条件的多样性。为了服务于精细化的识别任务，研究团队对原始视频进行了人工分割与标注，依据一个包含94个独立手势类别的分类体系，这些类别进一步归属于动物、食物、颜色、情感与家庭这五个宏观语义范畴。此外，为增强数据的可用性与研究深度，团队利用MediaPipe工具从每一帧中提取了人手、面部及身体的二维关键点，构成了多模态数据基础。

特点

SignIT数据集的核心特点体现在其精心设计的结构与丰富的多模态信息上。该数据集不仅提供了原始的RGB视频流，还包含了从每帧图像中提取的精细二维姿态关键点，涵盖双手（每手21点）、面部（51点）及身体（33点），为从外观到运动动力学的多角度分析提供了可能。其语义组织架构清晰，将94个手势类别归纳于五个基础且常用的宏观类别之下，这种设计既支持粗粒度的类别识别研究，也便于开展细粒度的、类内相似手势的区分挑战。数据集的规模与质量经过平衡考量，总帧数约99,000帧，并按照约48.5%、21.2%、30.3%的比例划分为训练、验证与测试集，确保了评估的严谨性。同时，数据集中存在的类别数量分布不均衡现象，真实反映了实际沟通中词汇的使用频率，为模型鲁棒性研究提供了现实场景。

使用方法

SignIT数据集为意大利手语识别任务提供了一个标准化的基准测试平台。研究者可利用该数据集从多个维度评估模型性能：在输入模态上，可单独使用RGB帧序列、二维姿态关键点序列，或将两者融合进行多模态学习；在任务粒度上，既可在五个宏观类别层面进行粗分类，也可深入至94个细粒度手势类别进行精确识别。数据集中提供的标准划分确保了结果的可比性。基准实验表明，对于宏观分类，基于关键点的轻量级模型（如MLP）已能取得良好效果；而对于更具挑战性的细粒度识别，则需要能够有效融合时空信息与多模态线索的先进模型（如经过微调的多模态大语言模型）。该数据集公开了所有视频、标注及关键点数据，支持研究社区在此基础上开发新算法，推动手语识别技术向更精准、更实用的方向发展。

背景与挑战

背景概述

手语作为聋哑及听力障碍人士的核心沟通媒介，其自动识别技术对于促进社会包容性具有深远意义。意大利手语（LIS）作为全球数百种手语之一，长期以来在计算视觉与手势识别研究领域缺乏高质量的标注数据集与标准化基准，制约了相关技术的发展。SignIT数据集由意大利卡塔尼亚大学的LIVE@IPLab实验室与Next Vision公司于2025年联合创建，旨在填补这一空白。该数据集包含644个视频，覆盖3.33小时内容，并精细标注了94个独立手势类别，归属于动物、食物、颜色、情感与家庭五大语义范畴。通过提取用户手部、面部及身体的二维关键点，并结合RGB视频帧，SignIT为LIS识别任务提供了首个系统性的多模态基准，推动了手势识别模型在时序信息与空间特征融合方面的探索。

当前挑战

SignIT数据集所针对的意大利手语识别任务面临多重挑战。在领域问题层面，手语识别需克服视觉相似手势的区分难题，例如颜色类别中的“绿色”与“紫色”在动作上差异细微，对模型的细粒度特征捕捉能力提出极高要求。同时，手语表达依赖连续动态时序信息，而现有模型在建模长程时间依赖与上下文关联方面仍显不足。在数据集构建过程中，挑战主要源于数据收集与标注的复杂性。视频素材来自网络公开资源，需应对不同拍摄环境、光照条件及用户表现风格的多样性。为确保模型学习真实手势特征而非背景文本线索，团队须对视频中的文字区域进行模糊化预处理。此外，手动分割连续视频为独立手势片段并标注94个类别，需要大量语言学专业知识与人工校验，以避免标注不一致性与类别不平衡问题。

常用场景

经典使用场景

在意大利手语（LIS）识别研究领域，SignIT数据集为计算机视觉与多模态学习提供了基准测试平台。该数据集包含644个视频，涵盖动物、食物、颜色、情感和家庭五大语义类别下的94个精细手势类别，并提供了RGB视频帧与手部、面部及身体的二维关键点注释。研究者通常利用SignIT评估不同模态（如纯视觉外观、关键点序列或其融合）在手势识别任务中的效能，尤其关注模型对视觉相似但语义相近手势的区分能力，例如绿色与紫色的区分。通过该数据集，学者能够系统比较K-NN、MLP、ResNet-18、I3D及LLaVA-OneVision等前沿模型在宏观类别与微观类别识别上的表现，从而推动LIS识别技术的算法优化与理论进展。

实际应用

SignIT数据集的实际应用场景主要集中在促进聋哑人士与听人群体之间的无障碍交流技术开发。基于该数据集训练的识别模型可集成于实时翻译系统，用于教育平台中的手语教学辅助、公共服务场所的自动手语翻译界面，以及远程会议中的实时字幕生成。例如，在医疗或法律咨询场景中，系统能够识别用户表达的LIS手势并转化为文本或语音输出，有效降低沟通障碍。此外，数据集中包含的多环境录制视频增强了模型对背景、光照变化的适应性，有利于在实际部署中保持稳定的识别性能，推动包容性技术的发展与社会融合。

衍生相关工作

围绕SignIT数据集，研究者已开展多项经典衍生工作，主要集中在多模态融合方法与领域自适应技术的探索。例如，基于该数据集的基准测试催生了针对LIS的时序建模改进，如利用LLaVA-OneVision等大型多模态模型进行关键点与视觉信息的协同训练，以提升细粒度手势分类准确率。同时，研究团队通过消融实验分析了二维关键点、时序采样及微调策略对模型性能的影响，为后续研究提供了重要参考。这些工作进一步推动了类似数据集的构建范式，如扩展至连续手语句子识别或跨语言手语迁移学习，形成了以SignIT为基础的技术生态，持续促进手语识别领域的算法创新与资源建设。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集