Youtube Gesture Dataset

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/youngwoo-yoon/youtube-gesture-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从YouTube视频中提取的手势数据，用于研究和分析。数据集的构建过程包括下载视频、分割视频场景、提取人体姿态等步骤，最终形成一个包含多种手势信息的数据集。

This dataset contains gesture data extracted from YouTube videos for research and analysis. Its construction process includes steps such as downloading videos, segmenting video scenes, and extracting human poses, ultimately forming a dataset with diverse gesture information.

创建时间：

2019-04-03

原始信息汇总

数据集概述

数据集名称

Youtube Gesture Dataset

数据集内容

视频下载与处理：包括下载YouTube视频及其转录文本，视频场景分割，以及人体姿态提取。
预处理步骤：
1. 配置设置：更新路径和YouTube开发者密钥，设置目标频道ID。
2. 视频下载：执行download_video.py下载视频、元数据和字幕。
3. 姿态提取：执行run_openpose.py使用OpenPose提取人体、手部和面部骨骼。
4. 场景分割：执行run_scenedetect.py使用PySceneDetect分割视频为场景片段。
5. 转录对齐：执行run_gentle.py使用Gentle进行字级对齐。
6. 剪辑过滤：执行run_clip_filtering.py移除不适当剪辑，保存包含人体骨骼的剪辑。
7. 可选审查：执行review_filtered_clips.py审查过滤结果。
8. 数据集生成：执行make_ted_dataset.py进行后期处理并分割为训练、验证和测试集。

预构建数据集

TED Gesture Dataset：
- 视频数量：1,766
- 平均视频长度：12.7分钟
- 关注镜头数：35,685
- 关注镜头比例：25%
- 关注镜头总时长：106.1小时

数据集下载

ted_raw_poses.zip：包含所有帧的人体姿态，共80.9GB，分为多个zip文件。
ted_shots_of_interest.zip：包含镜头分割结果和关注镜头的人体姿态，13.3GB。
ted_gesture_dataset.zip：包含训练/验证/测试集的语音-动作对，1.1GB。

注意事项

视频和转录文本不提供下载，需自行获取。
提供的姿态数据可能与重新上传的视频不匹配，需检查帧数。

引用信息

若使用此数据集，请引用相关论文：

@INPROCEEDINGS{yoonICRA19, title={Robots Learn Social Skills: End-to-End Learning of Co-Speech Gesture Generation for Humanoid Robots}, author={Yoon, Youngwoo and Ko, Woo-Ri and Jang, Minsu and Lee, Jaeyeon and Kim, Jaehong and Lee, Geehyuk}, booktitle={Proc. of The International Conference in Robotics and Automation (ICRA)}, year={2019} }

搜集汇总

数据集介绍

构建方式

Youtube Gesture Dataset的构建过程涉及多个步骤，首先通过下载YouTube视频及其对应的字幕，随后利用OpenPose工具提取视频中的人体姿态信息，包括身体、手部和面部骨骼。接着，使用PySceneDetect对视频进行场景分割，将视频划分为多个片段。为了实现更精确的对齐，Gentle工具被用于字幕与视频的逐字对齐。最后，通过筛选和处理，生成包含人体姿态信息的片段，并进一步分为训练、验证和测试集。

使用方法

使用Youtube Gesture Dataset时，用户可以通过提供的脚本下载YouTube视频和字幕，并执行一系列预处理步骤以提取和分割视频片段。数据集的最终形式包括训练、验证和测试集，用户可以直接用于模型训练和评估。此外，数据集还提供了预处理后的姿态信息和场景分割结果，便于用户进行进一步的分析和应用。

背景与挑战

背景概述

Youtube Gesture Dataset是由Youngwoo Yoon等人创建的一个专门用于研究语音与手势同步的数据集。该数据集的核心研究问题在于探索如何通过视频和语音数据提取人体姿态，并将其与语音内容进行精确对齐，从而为机器人学习社交技能提供数据支持。该数据集的构建始于2018年，主要由韩国电子通信研究院（ETRI）的研究人员主导，其研究成果在2019年国际机器人与自动化会议（ICRA）上发表，对机器人学和人类行为分析领域产生了重要影响。

当前挑战

Youtube Gesture Dataset在构建过程中面临多项挑战。首先，视频和语音数据的下载与处理涉及复杂的版权问题，尤其是TED演讲视频的获取。其次，人体姿态的提取依赖于OpenPose等工具，这些工具在处理大规模视频数据时计算资源需求巨大，且精度要求高。此外，语音与手势的对齐需要精确的算法支持，如Gentle工具的使用，这对算法的稳定性和准确性提出了高要求。最后，数据集的构建过程耗时较长，涉及多个步骤的自动化处理和人工校验，确保数据质量的同时也增加了工作量。

常用场景

经典使用场景

Youtube Gesture Dataset 的经典使用场景主要集中在人机交互和机器人学领域。该数据集通过提取YouTube视频中的手势、身体姿态和面部表情，为研究者提供了丰富的语音与手势同步数据。这些数据可用于训练模型，以生成与语音内容相匹配的手势，从而提升人形机器人在社交互动中的表现。

解决学术问题

Youtube Gesture Dataset 解决了在人机交互领域中，如何有效地将语音与手势同步这一关键学术问题。通过提供精确的姿态数据和语音对齐信息，该数据集为研究者提供了一个标准化的基准，推动了手势生成和语音同步技术的进步，对提升机器人与人类的自然交互具有重要意义。

实际应用

在实际应用中，Youtube Gesture Dataset 可用于开发更智能的人形机器人，使其能够在与人类互动时自然地生成手势。例如，在教育、医疗和娱乐等领域，机器人可以通过生成与语音内容相匹配的手势，增强与用户的沟通效果，提升用户体验。

数据集最近研究