five

SEACrowd/fsl_105

收藏
Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SEACrowd/fsl_105
下载链接
链接失效反馈
官方服务:
资源简介:
FSL-105是一个包含105种不同菲律宾手语(FSL)手势的视频数据集。每个手势被分类为10个类别之一,并由大约20个四秒的视频样本表示。这些手势由成年聋哑FSL手语者在蓝色背景上表演,并由FSL专家审核。数据集主要用于视频到文本检索和视频字幕生成任务。数据集的语言为psp(菲律宾手语)。

FSL-105 is a video dataset for 105 different Filipino Sign Language (FSL) signs. Each sign is categorized into one of 10 categories and is each represented by approximately 20 four-second video samples. Signs were performed by adult deaf FSL signers on a blank blue background and reviewed by an FSL expert. The dataset is primarily used for video-to-text retrieval and video captioning tasks. The language of the dataset is psp (Filipino Sign Language).
提供机构:
SEACrowd
原始信息汇总

Fsl 105 数据集概述

基本信息

  • 名称: Fsl 105
  • 语言: psp (菲律宾手语)
  • 任务类别:
    • 视频到文本检索
    • 视频字幕生成
  • 标签:
    • 视频到文本检索
    • 视频字幕生成
  • 许可证: Creative Commons Attribution 4.0 (cc-by-4.0)

数据集描述

  • 内容: 包含105种不同的菲律宾手语(FSL)手势的视频数据集。
  • 分类: 每个手势被分类为10个类别之一。
  • 视频样本: 每个手势由大约20个四秒钟的视频样本表示。
  • 录制条件: 手势由成年聋人FSL手语者在蓝色背景前表演,并由FSL专家审查。

使用方法

使用 datasets

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/fsl_105", trust_remote_code=True)

使用 seacrowd

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("fsl_105", schema="seacrowd")

检查数据集的所有可用子集(配置名称)

print(sc.available_config_names("fsl_105"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集版本

  • 源版本: 1.0.0
  • SEACrowd版本: 2024.06.20

引用

bibtex @article{tupal4476867fsl105, title={FSL105: The Video Filipino Sign Language Sign Database of Introductory 105 FSL Signs}, author={Tupal, Isaiah Jassen Lizaso and Melvin, Cabatuan K}, journal={Available at SSRN 4476867} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总
数据集介绍
main_image_url
构建方式
FSL-105数据集专注于菲律宾手语(FSL)中的105种不同手势,每种手势归属于10个类别之一。每个类别由大约20个时长四秒的视频样本构成,这些样本由成年聋哑FSL手语者在纯蓝色背景前表演,并经过FSL专家的审核,确保了数据的一致性与专业性。
特点
该数据集兼具视频到文本检索与视频字幕生成的双重任务属性,为多模态学习提供了坚实的基础。其独特的类别划分与标准化采集环境,使得模型能够专注于手势本身的特征学习,减少了背景干扰,从而提升了训练的稳定性和泛化能力。
使用方法
用户可通过HuggingFace的`datasets`库直接加载数据集,使用`load_dataset("SEACrowd/fsl_105", trust_remote_code=True)`命令即可。同时,SEACrowd库也提供了灵活的加载方式,支持默认配置与特定子集的选择,方便研究人员根据具体任务需求进行定制化使用。
背景与挑战
背景概述
手语作为听障人士沟通的核心媒介,其数字化与智能化研究对于推动无障碍技术发展具有深远意义。FSL-105数据集由Isaiah Jassen Lizaso Tupal与Melvin Cabatuan K.于2023年前后创建,源自菲律宾高校研究团队,专注于菲律宾手语(FSL)的视觉识别与理解。该数据集收录了105个常用FSL手势,涵盖10个语义类别,每个手势由约20段时长4秒的视频样本构成,视频由成年聋哑FSL使用者以蓝色背景录制,并经专家审核以确保标注准确性。作为东南亚地区少数系统化的手语视频资源,FSL-105为视频到文本检索与视频字幕生成等跨模态任务提供了标准化基准,填补了该区域低资源语言手语数据的空白,对推动菲律宾手语自动翻译与教育辅助工具的开发具有重要学术与应用价值。
当前挑战
FSL-105数据集所面对的挑战首先体现在领域问题的复杂性:手语识别需同时处理手势的空间动态、时间序列与上下文语义,其精细程度远超静态图像分类,而视频到文本检索任务要求模型在有限样本下捕捉手势与文本间的细粒度对齐。当前数据集仅有约2100个视频片段,每个手势仅20个样本,这加剧了少样本学习场景下的泛化困难。构建过程中,挑战集中于数据采集与标注:需协调成年聋哑手语使用者进行标准化表演,并确保背景与动作一致性;手势分类依赖专家逐帧审核,主观差异可能引入标注噪声。此外,菲律宾手语存在地域变体,105个手势的覆盖范围可能不足以代表完整词汇系统,限制了模型对现实场景的适应能力。
常用场景
经典使用场景
FSL-105数据集作为菲律宾手语(FSL)视觉理解领域的基础性资源,其经典使用场景集中于视频到文本的检索任务与视频字幕生成任务。研究者可利用该数据集训练模型,从包含105个手语符号的短视频片段中精准识别并映射至对应的文字标签,进而构建高效的手语翻译系统。该数据集特有的分类结构(10个语义类别)与标准化采集环境(蓝色背景、固定时长)为跨模态对齐研究提供了可控的实验基准,尤其适用于小样本学习场景下的特征提取与语义匹配方法验证。
实际应用
实际应用场景中,FSL-105数据集构建的手语识别系统可无缝嵌入菲律宾聋哑群体的日常交流辅助工具,例如移动端实时手语翻译应用或教育平台中的手语学习模块。基于该数据集训练的模型能够将视频手语信号转化为文本或语音输出,降低听力障碍者与健听人士之间的沟通壁垒。此外,该数据集还可服务于智能会议系统的无障碍功能开发,通过捕捉手语动作实现会议内容的实时转录,提升信息获取的公平性。
衍生相关工作
围绕FSL-105数据集衍生的经典工作包括基于对比学习的跨模态检索框架、融合骨骼关键点的时空注意力网络以及面向小样本手语识别的原型网络改进方法。这些研究不仅验证了数据集的基准价值,还催生了手语数据增强技术(如视角变换、动态模糊模拟)与多任务联合训练范式。此外,该数据集作为SEACrowd项目的重要组成部分,为东南亚多语言多模态基准测试提供了关键语料,推动了区域语言资源标准化与模型评估体系的建立。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作