five

Isharah

收藏
arXiv2025-06-04 更新2025-06-06 收录
下载链接:
https://snalyami.github.io/Isharah_CSLR/
下载链接
链接失效反馈
官方服务:
资源简介:
Isharah是一个大规模的多场景连续手语识别数据集,由沙特阿拉伯石油矿产大学等机构创建。该数据集包含由18位聋人和专业手语者表演的30,000个视频片段,涵盖了沙特阿拉伯使用的沙特手语(SSL)。数据集在不受控制的条件下使用手语者的智能手机相机收集,具有高度变化的录制设置、相机距离、角度和分辨率,有助于开发能够处理现实世界场景多样性和复杂性的手语理解模型。数据集提供了所有视频的语素层注释,使其适用于开发连续手语识别(CSLR)和手语翻译(SLT)系统。

Isharah is a large-scale multi-scenario continuous sign language recognition dataset developed by institutions including King Fahd University of Petroleum and Minerals, Saudi Arabia. This dataset contains 30,000 video clips performed by 18 deaf individuals and professional sign language performers, covering Saudi Sign Language (SSL) used in Saudi Arabia. Collected using the smartphone cameras of the signers under uncontrolled recording conditions, the dataset features highly variable recording setups, camera distances, angles and resolutions, which facilitates the development of sign language understanding models capable of handling the diversity and complexity of real-world scenarios. The dataset provides morpheme-level annotations for all videos, making it suitable for developing continuous sign language recognition (CSLR) and sign language translation (SLT) systems.
提供机构:
沙特阿拉伯石油矿产大学
创建时间:
2025-06-04
原始信息汇总

Isharah Continuous Sign Language Recognition and Translation Dataset

概述

  • 数据集名称: Isharah Continuous Sign Language Recognition and Translation Dataset
  • 规模: 首个大规模沙特手语(SSL)连续识别与翻译数据集
  • 样本量: 超过30,000个视频样本
  • 采集方式: 由聋哑人和听力障碍者使用智能手机在多样化场景下录制

特点

  • 支持任务:
    • 连续手语识别(CSLR)
    • 手语翻译(SLT)
  • 标注内容:
    • 句子级gloss标注
    • 对应的阿拉伯语翻译
  • 基准子集:
    • Isharah-500
    • Isharah-1000
    • Isharah-2000

下载信息

  • 状态: 准备公开发布中
  • 待发布子集:
    • Isharah-500 (即将开放)
    • Isharah-1000 (即将开放)
    • Isharah-2000 (即将开放)

引用格式

bibtex @misc{alyami2025isharahlargescalemultiscenedataset, title={Isharah: A Large-Scale Multi-Scene Dataset for Continuous Sign Language Recognition}, author={Sarah Alyami and Hamzah Luqman and Sadam Al-Azani and Maad Alowaifeer and Yazeed Alharbi and Yaser Alonaizan}, year={2025}, eprint={2506.03615}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.03615}, }

联系方式

  • Sarah Alyami: snalyami@iau.edu.sa
  • Hamzah Luqman: hluqman@kfupm.edu.sa
搜集汇总
数据集介绍
main_image_url
构建方式
Isharah数据集的构建采用了多阶段流程,旨在捕捉真实场景下的沙特手语(SSL)表达。研究团队首先从银行、法律、医疗等多元领域精选2000个常用句子,并招募18名不同年龄、性别及听力状况的熟练手语者参与录制。创新性地采用智能手机前置摄像头在非受控环境中采集数据,通过垂直与横向双模式拍摄,形成包含1080x1920至2160x3840等多种分辨率的视频素材。所有视频经专业工具LosslessCut进行逐句分割后,由两名SSL专家通过定制化标注平台完成双重校验,最终构建包含30,000个视频样本的语料库,总时长超过43小时。
特点
该数据集的核心价值体现在三方面:环境多样性方面,首次通过智能手机在家庭、办公室等自然场景采集数据,涵盖不同光照、背景和拍摄角度;语言完整性方面,不仅提供句子级阿拉伯语翻译,还包含1,132个手语词汇的细粒度标注,支持语法结构研究;人口多样性方面,18名手语者包含聋人、重听者与专业翻译,年龄跨度为21-53岁,61%为聋人群体。特别值得注意的是视频平均包含130帧,句子平均由4个手语词汇构成,紧急医疗类视频的词汇多样性最高。
使用方法
研究者可通过四种基准任务开发利用该数据集:在说话人无关的连续手语识别(CSLR)任务中,模型需识别未参与训练的手语者视频;未见过句子的CSLR任务则测试模型对新句式结构的泛化能力。对于手语翻译(SLT)方向,提供基于词汇注释的两阶段翻译与端到端无注释翻译双路径评估。数据集按规模划分为Isharah-500/1000/2000三个子集,支持渐进式研究。评估指标包含词错误率(WER)和BLEU-ROUGE等,所有基准测试均在RTX A6000显卡环境下完成,批处理规模设为2以确保实验可复现性。
背景与挑战
背景概述
Isharah数据集是由沙特阿拉伯国王法赫德石油与矿产大学(King Fahd University of Petroleum & Minerals)与沙特数据与人工智能局(SDAIA)联合研究中心的研究团队于2024年推出的一个大规模多场景连续手语识别(CSLR)数据集。该数据集旨在解决当前手语识别领域中的一个关键问题,即缺乏在非受控环境下采集的连续手语数据。Isharah数据集包含30,000个视频片段,由18名聋哑人和专业手语者使用智能手机摄像头在多样化的环境中录制,涵盖了2,000个独特的沙特手语(SSL)句子。该数据集不仅提供了手语视频,还包括了精细的手语词汇(gloss)注释和阿拉伯语翻译,使其成为开发连续手语识别和手语翻译(SLT)系统的宝贵资源。Isharah的推出填补了手语识别领域在真实场景数据上的空白,并为相关研究提供了新的基准。
当前挑战
Isharah数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,连续手语识别(CSLR)需要处理手语中的连续性和流畅性,包括手势之间的过渡和共发音效应,这使得识别任务比孤立手语识别(ISLR)更为复杂。此外,手语翻译(SLT)任务需要将手语视频直接转换为自然语言,而无需依赖中间的手语词汇注释,这对模型的语义理解和生成能力提出了更高要求。在构建过程中,数据采集面临多样化的环境、设备差异(如不同的智能手机摄像头分辨率和角度)以及手语者的个体差异(如手势速度和风格)。注释过程也极具挑战性,因为沙特手语缺乏标准化的词汇注释,且需要专业手语专家参与,以确保注释的准确性和一致性。
常用场景
经典使用场景
在自然语言处理和计算机视觉领域,Isharah数据集为连续手语识别(CSLR)和手语翻译(SLT)提供了丰富的多场景视频资源。该数据集包含30,000个视频片段,涵盖了2,000个独特的沙特手语句子,由18位不同背景的手语者录制。这些视频在非受控环境下通过智能手机摄像头采集,具有多样化的录制设置、相机距离、角度和分辨率,为研究者提供了高度真实的实验数据。
衍生相关工作
Isharah数据集已经催生了一系列重要的研究工作,特别是在连续手语识别和手语翻译领域。基于该数据集,研究者开发了多种先进模型,如Swin-MSTP和SlowFastSign,这些模型在符号独立和未见句子识别任务中表现出色。此外,该数据集还支持了基于符号和无符号的手语翻译方法比较,推动了端到端翻译技术的发展。
数据集最近研究
最新研究方向
在连续手语识别(CSLR)领域,Isharah数据集的推出标志着研究重点从受控实验室环境向真实场景的显著转变。作为首个通过智能手机摄像头在非约束环境下采集的大规模多场景沙特手语数据集,其包含30,000个视频样本和1,132个手势词汇,为克服传统数据集在背景单一、录制条件固定等方面的局限性提供了突破性解决方案。当前研究热点集中于三个维度:基于跨模态预训练的端到端手语翻译系统开发,通过时空注意力机制处理手语流中的共发音现象,以及针对智能手机采集数据的鲁棒性特征提取算法优化。该数据集通过支持说话人无关和未见句子两种评估模式,显著推动了跨用户泛化能力和上下文理解的研究进程,相关成果已应用于中东地区的无障碍通信系统建设。
相关研究论文
  • 1
    Isharah: A Large-Scale Multi-Scene Dataset for Continuous Sign Language Recognition沙特阿拉伯石油矿产大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作