SignerX/SignVerse-2M
收藏数据集概述:SignVerse-2M
SignVerse-2M 是一个大规模、多语种的**姿态原生(Pose-Native)**手语研究数据集,旨在解决现有视频-文本手语语料库与主流姿态驱动生成流程之间的不匹配问题。该数据集通过将公开的多语种手语视频统一转换为 DWPose 关键点表示,并发布结果。
核心特性
- 数据集名称: SignVerse-2M
- 核心表示: DWPose 关键点序列
- 视频数量: 39,196 个
- 剪辑/字幕片段数: 约 200 万个
- 手语语种: 25 种以上
- 帧率: 24 FPS
- 每帧关键点: 18 身体关键点 + 21 左手关键点 + 21 右手关键点 + 68 面部关键点 = 128 个
- 来源类型: 公开的多语种手语视频
- 原始 RGB 帧: 未发布
- 发布的监督信息: 结构化字幕文本和文档级文本
- 总文件大小: 256 GB
数据来源与处理
该数据集基于 YouTube-SL-25 等公开的多语种手语视频构建。处理流程包括:
- 获取元数据和可用字幕。
- 将字幕轨道结构化为片段级和文档级文本。
- 以 24 FPS 解码视频。
- 逐帧应用 DWPose 提取身体、手部和面部关键点。
- 将输出打包成每视频的工件供发布。
涵盖语言
数据集覆盖超过 25 种手语,主要语种包括(但不限于):
| 代码 | 语言 | 代码 | 语言 |
|---|---|---|---|
ase |
美国手语 | lsf |
法国手语 |
bfi |
英国手语 | lse |
西班牙手语 |
gsg |
德国手语 | lis |
意大利手语 |
sgd |
瑞士德语手语 | lgp |
葡萄牙手语 |
asf |
澳大利亚手语 | ngt |
荷兰手语 |
jsl |
日本手语 | kvk |
韩国手语 |
csl |
中国手语 | bzs |
巴西手语 |
lsm |
墨西哥手语 | pjm |
波兰手语 |
语言分布呈长尾状,而非均衡分布。
仓库结构
数据以 .tar 分片形式组织,位于 dataset/ 目录下。每个分片包含每视频的目录,主要文件包括:
poses.npz: 包含逐帧 128 个 DWPose 关键点的 NumPy 文件,坐标以像素空间(x, y, score)存储。caption.json: 包含结构化字幕和元数据的 JSON 文件,字段包括video_id,sign_language,title,duration_s,segments(起始时间、结束时间、文本),document_text和english_source。.complete: 处理流程完成的标记文件。
使用方式
加载示例
python import json import tarfile import numpy as np
with tarfile.open("dataset/Sign_DWPose_NPZ_000001.tar") as tar: tar.extractall("./tmp_signverse")
npz = np.load("./tmp_signverse/{video_id}/poses.npz", allow_pickle=True) frames = npz["frames"].tolist() body = frames[0]["person_0"]["body"]
with open("./tmp_signverse/{video_id}/caption.json", "r", encoding="utf-8") as f: caption = json.load(f)
print(body.shape) print(caption["segments"][0]["text"])
可视化一个姿态文件
bash python scripts/visualize_dwpose_npz.py --npz extracted/{video_id}/poses.npz --style openpose --out viz/
复现处理流程
- 单机:
bash reproduce_independently.sh - SLURM 集群:
bash reproduce_independently_slurm.sh
预期用途
- 研究用途: 基于姿态空间的手语生成、姿态驱动的手语翻译与识别、跨语言迁移与基准测试。
- 非预期用途: 医疗、法律或紧急情况下的安全关键性解读;个体手语者的重新识别;对任何特定手语的完整性声明。
许可协议
- 数据集注释、姿态关键点和元数据: CC BY-NC 4.0。
- 原始视频: 未在仓库中重新分发,受原始平台条款和创作者权利约束。




