five

SignerX/SignVerse-2M

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/SignerX/SignVerse-2M
下载链接
链接失效反馈
官方服务:
资源简介:
SignVerse-2M是一个大规模多语言手语姿势数据集,专为手语研究设计。数据集将公开可用的手语视频重新组织为统一的DWPose表示,并发布了大约200万个剪辑,覆盖25种以上的手语。数据集不提供原始RGB视频,而是提供每帧的身体、手和面部关键点以及结构化的字幕监督,使其可直接用于姿势条件的手语生成、识别和翻译研究。数据集的特点包括核心表示为DWPose关键点序列,视频数量为39,196个,剪辑/字幕片段约为200万个,帧率为24 FPS,每帧关键点包括18个身体关键点、21个左手关键点、21个右手关键点和68个面部关键点,总计128个关键点。数据集的语言分布呈现长尾分布,高资源语言占数据量的较大比例。

SignVerse-2M is a large-scale multilingual pose-native dataset for sign language research. The dataset reorganizes publicly available sign language videos into a unified DWPose-based representation and releases the result as approximately 2 million clips from 39,196 videos covering 25+ sign languages. Rather than distributing raw RGB video, SignVerse-2M provides per-frame body, hand, and face keypoints together with structured subtitle supervision, making the corpus directly usable for pose-conditioned sign language generation, recognition, and translation research. The dataset features include core representation as DWPose keypoint sequences, 39,196 videos, approximately 2 million clips/subtitle segments, frame rate of 24 FPS, and per-frame keypoints including 18 body keypoints, 21 left hand keypoints, 21 right hand keypoints, and 68 face keypoints, totaling 128 keypoints. The language distribution is long-tailed, with high-resource languages accounting for a disproportionate share of the total data volume.
提供机构:
SignerX
原始信息汇总

数据集概述:SignVerse-2M

SignVerse-2M 是一个大规模、多语种的**姿态原生(Pose-Native)**手语研究数据集,旨在解决现有视频-文本手语语料库与主流姿态驱动生成流程之间的不匹配问题。该数据集通过将公开的多语种手语视频统一转换为 DWPose 关键点表示,并发布结果。

核心特性

  • 数据集名称: SignVerse-2M
  • 核心表示: DWPose 关键点序列
  • 视频数量: 39,196 个
  • 剪辑/字幕片段数: 约 200 万个
  • 手语语种: 25 种以上
  • 帧率: 24 FPS
  • 每帧关键点: 18 身体关键点 + 21 左手关键点 + 21 右手关键点 + 68 面部关键点 = 128 个
  • 来源类型: 公开的多语种手语视频
  • 原始 RGB 帧: 未发布
  • 发布的监督信息: 结构化字幕文本和文档级文本
  • 总文件大小: 256 GB

数据来源与处理

该数据集基于 YouTube-SL-25 等公开的多语种手语视频构建。处理流程包括:

  1. 获取元数据和可用字幕。
  2. 将字幕轨道结构化为片段级和文档级文本。
  3. 以 24 FPS 解码视频。
  4. 逐帧应用 DWPose 提取身体、手部和面部关键点。
  5. 将输出打包成每视频的工件供发布。

涵盖语言

数据集覆盖超过 25 种手语,主要语种包括(但不限于):

代码 语言 代码 语言
ase 美国手语 lsf 法国手语
bfi 英国手语 lse 西班牙手语
gsg 德国手语 lis 意大利手语
sgd 瑞士德语手语 lgp 葡萄牙手语
asf 澳大利亚手语 ngt 荷兰手语
jsl 日本手语 kvk 韩国手语
csl 中国手语 bzs 巴西手语
lsm 墨西哥手语 pjm 波兰手语

语言分布呈长尾状,而非均衡分布。

仓库结构

数据以 .tar 分片形式组织,位于 dataset/ 目录下。每个分片包含每视频的目录,主要文件包括:

  • poses.npz: 包含逐帧 128 个 DWPose 关键点的 NumPy 文件,坐标以像素空间 (x, y, score) 存储。
  • caption.json: 包含结构化字幕和元数据的 JSON 文件,字段包括 video_id, sign_language, title, duration_s, segments (起始时间、结束时间、文本), document_textenglish_source
  • .complete: 处理流程完成的标记文件。

使用方式

加载示例

python import json import tarfile import numpy as np

with tarfile.open("dataset/Sign_DWPose_NPZ_000001.tar") as tar: tar.extractall("./tmp_signverse")

npz = np.load("./tmp_signverse/{video_id}/poses.npz", allow_pickle=True) frames = npz["frames"].tolist() body = frames[0]["person_0"]["body"]

with open("./tmp_signverse/{video_id}/caption.json", "r", encoding="utf-8") as f: caption = json.load(f)

print(body.shape) print(caption["segments"][0]["text"])

可视化一个姿态文件

bash python scripts/visualize_dwpose_npz.py --npz extracted/{video_id}/poses.npz --style openpose --out viz/

复现处理流程

  • 单机: bash reproduce_independently.sh
  • SLURM 集群: bash reproduce_independently_slurm.sh

预期用途

  • 研究用途: 基于姿态空间的手语生成、姿态驱动的手语翻译与识别、跨语言迁移与基准测试。
  • 非预期用途: 医疗、法律或紧急情况下的安全关键性解读;个体手语者的重新识别;对任何特定手语的完整性声明。

许可协议

  • 数据集注释、姿态关键点和元数据: CC BY-NC 4.0
  • 原始视频: 未在仓库中重新分发,受原始平台条款和创作者权利约束。
搜集汇总
数据集介绍
main_image_url
构建方式
SignVerse-2M的构建源于对公开多语种手语视频资源的系统性重组。研究团队从YouTube-SL-25等大型公开手语语料库及网络来源中,汇集了涵盖25种以上手语的39,196段视频。通过统一流水线,视频首先以24 FPS解码,继而运用DWPose逐帧提取包含身体(18点)、双手(各21点)及面部(68点)共128个关键点的姿态序列,同时结构化提取与时间对齐的字幕文本。最终生成约200万个剪辑片段,并封装为NPZ文件与JSON元数据存档发布,确保数据格式的标准化与可复现性。
特点
该数据集的核心创新在于其姿态原生(Pose-Native)的表示范式,摒弃了原始RGB视频,转而提供统一的姿态关键点序列,显著消减背景、服饰等外观噪声,使模型能聚焦于动作本身。其多语种覆盖范围广达25种以上手语,包含从美国手语到巴西手语等众多语种,虽分布呈长尾特性,但为跨语言迁移与多语种基准测试提供了独一无二的资源。此外,每个片段均附带结构化字幕监督与文档级文本,支持从文本到手语生成、识别及翻译等多样化研究任务。
使用方法
研究者可通过HuggingFace仓库下载分片压缩包(.tar),解压后即可获取每段视频对应的poses.npz与caption.json文件。NPZ文件存储逐帧关键点坐标及置信度,可直接加载为NumPy数组用于模型输入;JSON文件则提供语种标识、时间对齐的片段文本及文档级文本。附带可视化脚本(visualize_dwpose_npz.py)支持以OpenPose风格渲染姿态序列,并提供了完整的流水线复现脚本(bash reproduce_independently.sh),便于用户在本地或SLURM集群环境重现数据处理流程。
背景与挑战
背景概述
随着深度学习在计算机视觉领域的纵深发展,手语研究逐渐从基于RGB视频的识别与翻译向姿态驱动生成范式演进。然而,现有大规模手语数据集多采用原始视频加文本注释的格式,难以直接适配日益普及的姿态条件生成管线,且多语种覆盖不足,制约了跨语言手语理解与生成能力的提升。SignVerse-2M数据集由Fang、Zhong、Zhang与Metaxas等研究人员于2025年构建,旨在消除这一结构性错配。该数据集整合了来自YouTube-SL-25等公开资源的39,196段多语种手语视频,通过统一DWPose管线提取每帧的身体、双手及面部共128个关键点,生成约200万条姿态序列片段,覆盖超过25种手语。作为首个大规模姿态原生多语种手语资源,SignVerse-2M在NeurIPS 2026数据集赛道发表,为手语生成、识别与跨语言迁移研究提供了标准化基准,推动了手语运动表征的开放世界评测。
当前挑战
SignVerse-2M所面临的挑战首先体现在多语种手语数据的收集与统一处理上。公开网络视频来源存在语种分布长尾不均衡、字幕时序与翻译精度参差不齐等问题,自动提取的DWPose关键点在快速运动、遮挡或多人物场景下噪声显著,尤其手部21个关键点难以完整捕捉细腻的手形语言信息。其次,面部68个特征点对表情、口型等非手动语言信号的表达有限,可能遗漏关键的语言学线索。此外,原始视频中确定主签名者(person_0)的规则在多签名者片段中可能失效,影响数据一致性。在模型应用层面,姿态原生表示虽简化了外观变化干扰,却对模型的手部细粒度辨识与跨语种泛化能力提出了更高要求,而语言长尾分布进一步加剧了低资源语种的训练挑战。数据仅从公共网络采集,教育或解释类内容占比较高,真实对话与区域变体手语不足,限制了生态效度。
常用场景
经典使用场景
SignVerse-2M作为迄今规模最大的多语种手语姿态原生数据集,其核心应用场景在于为基于姿态的手语生成、识别与翻译研究提供统一的基准平台。该数据集将来自25种以上手语的近四万条视频转换为标准化的DWPose关键点序列,共计约两百万个片段,每个片段均包含身体、双手及面部的128个关键点坐标与结构化字幕文本。研究者可直接利用这一姿态空间进行文本到姿态的生成建模,或开展跨语种的手语识别与翻译任务,无需处理原始RGB视频中背景、衣着等无关变量带来的噪声干扰。
实际应用
在实际应用中,SignVerse-2M所释放的姿态数据可直接赋能手语数字人构建、无障碍交互系统开发以及辅助翻译工具的创新。基于该数据集训练的文本到姿态生成模型,能够驱动虚拟角色以手语进行信息表达,服务于听障人士的日常沟通需求。此外,该数据集还可用于构建跨语种手语识别系统,帮助非手语使用者通过摄像头捕捉的手势与听障群体实现实时交流。在教育领域,它支持手语教学软件的姿态分析功能,辅助学习者纠正手型与动作。
衍生相关工作
伴随数据集的发布,研究团队同步提出了SignDW Transformer基线模型及多语种文本到姿态基准评测框架,为后续工作奠定了方法论基础。该数据集催生了多项衍生研究,包括但不限于基于姿态空间的手语运动风格迁移、多语种手语生成中的零样本学习、以及利用反向翻译机制评估生成质量的标准化流程。此外,数据集的构建管线——涵盖自动字幕结构化、DWPose提取与分片打包——为大规模姿态数据的规模化生产提供了可复现的技术范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作