SignerX/SignVerse-2M

Name: SignerX/SignVerse-2M
Creator: SignerX
Published: 2026-05-02 19:39:05
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/SignerX/SignVerse-2M

下载链接

链接失效反馈

官方服务：

资源简介：

SignVerse-2M是一个大规模多语言手语姿势数据集，专为手语研究设计。数据集将公开可用的手语视频重新组织为统一的DWPose表示，并发布了大约200万个剪辑，覆盖25种以上的手语。数据集不提供原始RGB视频，而是提供每帧的身体、手和面部关键点以及结构化的字幕监督，使其可直接用于姿势条件的手语生成、识别和翻译研究。数据集的特点包括核心表示为DWPose关键点序列，视频数量为39,196个，剪辑/字幕片段约为200万个，帧率为24 FPS，每帧关键点包括18个身体关键点、21个左手关键点、21个右手关键点和68个面部关键点，总计128个关键点。数据集的语言分布呈现长尾分布，高资源语言占数据量的较大比例。

SignVerse-2M is a large-scale multilingual pose-native dataset for sign language research. The dataset reorganizes publicly available sign language videos into a unified DWPose-based representation and releases the result as approximately 2 million clips from 39,196 videos covering 25+ sign languages. Rather than distributing raw RGB video, SignVerse-2M provides per-frame body, hand, and face keypoints together with structured subtitle supervision, making the corpus directly usable for pose-conditioned sign language generation, recognition, and translation research. The dataset features include core representation as DWPose keypoint sequences, 39,196 videos, approximately 2 million clips/subtitle segments, frame rate of 24 FPS, and per-frame keypoints including 18 body keypoints, 21 left hand keypoints, 21 right hand keypoints, and 68 face keypoints, totaling 128 keypoints. The language distribution is long-tailed, with high-resource languages accounting for a disproportionate share of the total data volume.

提供机构：

SignerX

原始信息汇总

数据集概述：SignVerse-2M

SignVerse-2M 是一个大规模、多语种的**姿态原生（Pose-Native）**手语研究数据集，旨在解决现有视频-文本手语语料库与主流姿态驱动生成流程之间的不匹配问题。该数据集通过将公开的多语种手语视频统一转换为 DWPose 关键点表示，并发布结果。

核心特性

数据集名称: SignVerse-2M
核心表示: DWPose 关键点序列
视频数量: 39,196 个
剪辑/字幕片段数: 约 200 万个
手语语种: 25 种以上
帧率: 24 FPS
每帧关键点: 18 身体关键点 + 21 左手关键点 + 21 右手关键点 + 68 面部关键点 = 128 个
来源类型: 公开的多语种手语视频
原始 RGB 帧: 未发布
发布的监督信息: 结构化字幕文本和文档级文本
总文件大小: 256 GB

数据来源与处理

该数据集基于 YouTube-SL-25 等公开的多语种手语视频构建。处理流程包括：

获取元数据和可用字幕。
将字幕轨道结构化为片段级和文档级文本。
以 24 FPS 解码视频。
逐帧应用 DWPose 提取身体、手部和面部关键点。
将输出打包成每视频的工件供发布。

涵盖语言

数据集覆盖超过 25 种手语，主要语种包括（但不限于）：

代码	语言	代码	语言
`ase`	美国手语	`lsf`	法国手语
`bfi`	英国手语	`lse`	西班牙手语
`gsg`	德国手语	`lis`	意大利手语
`sgd`	瑞士德语手语	`lgp`	葡萄牙手语
`asf`	澳大利亚手语	`ngt`	荷兰手语
`jsl`	日本手语	`kvk`	韩国手语
`csl`	中国手语	`bzs`	巴西手语
`lsm`	墨西哥手语	`pjm`	波兰手语

语言分布呈长尾状，而非均衡分布。

仓库结构

数据以 .tar 分片形式组织，位于 dataset/ 目录下。每个分片包含每视频的目录，主要文件包括：

poses.npz: 包含逐帧 128 个 DWPose 关键点的 NumPy 文件，坐标以像素空间 (x, y, score) 存储。
caption.json: 包含结构化字幕和元数据的 JSON 文件，字段包括 video_id, sign_language, title, duration_s, segments (起始时间、结束时间、文本), document_text 和 english_source。
.complete: 处理流程完成的标记文件。

使用方式

加载示例

python import json import tarfile import numpy as np

with tarfile.open("dataset/Sign_DWPose_NPZ_000001.tar") as tar: tar.extractall("./tmp_signverse")

npz = np.load("./tmp_signverse/{video_id}/poses.npz", allow_pickle=True) frames = npz["frames"].tolist() body = frames[0]["person_0"]["body"]

with open("./tmp_signverse/{video_id}/caption.json", "r", encoding="utf-8") as f: caption = json.load(f)

print(body.shape) print(caption["segments"][0]["text"])

可视化一个姿态文件

bash python scripts/visualize_dwpose_npz.py --npz extracted/{video_id}/poses.npz --style openpose --out viz/

复现处理流程

单机: bash reproduce_independently.sh
SLURM 集群: bash reproduce_independently_slurm.sh

预期用途

研究用途: 基于姿态空间的手语生成、姿态驱动的手语翻译与识别、跨语言迁移与基准测试。
非预期用途: 医疗、法律或紧急情况下的安全关键性解读；个体手语者的重新识别；对任何特定手语的完整性声明。

许可协议

数据集注释、姿态关键点和元数据: CC BY-NC 4.0。
原始视频: 未在仓库中重新分发，受原始平台条款和创作者权利约束。

搜集汇总

数据集介绍

构建方式

SignVerse-2M的构建源于对公开多语种手语视频资源的系统性重组。研究团队从YouTube-SL-25等大型公开手语语料库及网络来源中，汇集了涵盖25种以上手语的39,196段视频。通过统一流水线，视频首先以24 FPS解码，继而运用DWPose逐帧提取包含身体（18点）、双手（各21点）及面部（68点）共128个关键点的姿态序列，同时结构化提取与时间对齐的字幕文本。最终生成约200万个剪辑片段，并封装为NPZ文件与JSON元数据存档发布，确保数据格式的标准化与可复现性。

特点

该数据集的核心创新在于其姿态原生（Pose-Native）的表示范式，摒弃了原始RGB视频，转而提供统一的姿态关键点序列，显著消减背景、服饰等外观噪声，使模型能聚焦于动作本身。其多语种覆盖范围广达25种以上手语，包含从美国手语到巴西手语等众多语种，虽分布呈长尾特性，但为跨语言迁移与多语种基准测试提供了独一无二的资源。此外，每个片段均附带结构化字幕监督与文档级文本，支持从文本到手语生成、识别及翻译等多样化研究任务。

使用方法

研究者可通过HuggingFace仓库下载分片压缩包（.tar），解压后即可获取每段视频对应的poses.npz与caption.json文件。NPZ文件存储逐帧关键点坐标及置信度，可直接加载为NumPy数组用于模型输入；JSON文件则提供语种标识、时间对齐的片段文本及文档级文本。附带可视化脚本（visualize_dwpose_npz.py）支持以OpenPose风格渲染姿态序列，并提供了完整的流水线复现脚本（bash reproduce_independently.sh），便于用户在本地或SLURM集群环境重现数据处理流程。

背景与挑战

背景概述

随着深度学习在计算机视觉领域的纵深发展，手语研究逐渐从基于RGB视频的识别与翻译向姿态驱动生成范式演进。然而，现有大规模手语数据集多采用原始视频加文本注释的格式，难以直接适配日益普及的姿态条件生成管线，且多语种覆盖不足，制约了跨语言手语理解与生成能力的提升。SignVerse-2M数据集由Fang、Zhong、Zhang与Metaxas等研究人员于2025年构建，旨在消除这一结构性错配。该数据集整合了来自YouTube-SL-25等公开资源的39,196段多语种手语视频，通过统一DWPose管线提取每帧的身体、双手及面部共128个关键点，生成约200万条姿态序列片段，覆盖超过25种手语。作为首个大规模姿态原生多语种手语资源，SignVerse-2M在NeurIPS 2026数据集赛道发表，为手语生成、识别与跨语言迁移研究提供了标准化基准，推动了手语运动表征的开放世界评测。

当前挑战

SignVerse-2M所面临的挑战首先体现在多语种手语数据的收集与统一处理上。公开网络视频来源存在语种分布长尾不均衡、字幕时序与翻译精度参差不齐等问题，自动提取的DWPose关键点在快速运动、遮挡或多人物场景下噪声显著，尤其手部21个关键点难以完整捕捉细腻的手形语言信息。其次，面部68个特征点对表情、口型等非手动语言信号的表达有限，可能遗漏关键的语言学线索。此外，原始视频中确定主签名者（person_0）的规则在多签名者片段中可能失效，影响数据一致性。在模型应用层面，姿态原生表示虽简化了外观变化干扰，却对模型的手部细粒度辨识与跨语种泛化能力提出了更高要求，而语言长尾分布进一步加剧了低资源语种的训练挑战。数据仅从公共网络采集，教育或解释类内容占比较高，真实对话与区域变体手语不足，限制了生态效度。

常用场景

经典使用场景

SignVerse-2M作为迄今规模最大的多语种手语姿态原生数据集，其核心应用场景在于为基于姿态的手语生成、识别与翻译研究提供统一的基准平台。该数据集将来自25种以上手语的近四万条视频转换为标准化的DWPose关键点序列，共计约两百万个片段，每个片段均包含身体、双手及面部的128个关键点坐标与结构化字幕文本。研究者可直接利用这一姿态空间进行文本到姿态的生成建模，或开展跨语种的手语识别与翻译任务，无需处理原始RGB视频中背景、衣着等无关变量带来的噪声干扰。

实际应用

在实际应用中，SignVerse-2M所释放的姿态数据可直接赋能手语数字人构建、无障碍交互系统开发以及辅助翻译工具的创新。基于该数据集训练的文本到姿态生成模型，能够驱动虚拟角色以手语进行信息表达，服务于听障人士的日常沟通需求。此外，该数据集还可用于构建跨语种手语识别系统，帮助非手语使用者通过摄像头捕捉的手势与听障群体实现实时交流。在教育领域，它支持手语教学软件的姿态分析功能，辅助学习者纠正手型与动作。

衍生相关工作

伴随数据集的发布，研究团队同步提出了SignDW Transformer基线模型及多语种文本到姿态基准评测框架，为后续工作奠定了方法论基础。该数据集催生了多项衍生研究，包括但不限于基于姿态空间的手语运动风格迁移、多语种手语生成中的零样本学习、以及利用反向翻译机制评估生成质量的标准化流程。此外，数据集的构建管线——涵盖自动字幕结构化、DWPose提取与分片打包——为大规模姿态数据的规模化生产提供了可复现的技术范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集