Video2Reaction

Hugging Face2025-05-13 更新2025-05-14 收录

下载链接：

https://huggingface.co/datasets/stonezh/Video2Reaction

下载链接

链接失效反馈

官方服务：

资源简介：

Video2Reaction是一个高质量的数据集，它将电影场景映射到观众反应的分布上，这些反应基于大规模现实世界中的观众评论。数据集通过一个可扩展的两阶段自动标注管道进行标注，该管道能够以低成本、可扩展的方式对反应进行标注。该数据集支持一个新的基准任务：从多模态视频内容预测观众反应分布，并设计了一个全面评估框架，用于捕捉分布对齐和主导情感显著性。

Video2Reaction is a high-quality dataset that maps movie scenes to distributions of audience reactions derived from large-scale real-world audience reviews. The dataset is annotated via a scalable two-stage automatic annotation pipeline, which enables low-cost and scalable reaction annotation. It supports a novel benchmark task: predicting audience reaction distributions from multimodal video content, and additionally proposes a comprehensive evaluation framework for capturing distribution alignment and dominant emotional salience.

创建时间：

2025-05-10

原始信息汇总

Video2Reaction 数据集概述

基本信息

语言: 英语 (en)
许可证: CC-BY-NC-SA 4.0
规模: 10B < n < 100B
任务类别: 其他 (other)
标签: 视频 (video), 音频 (audio), 文本 (text)

数据集结构

特征

video_id: 字符串类型，视频唯一标识符
reaction_dominant: 字符串类型，主导反应
num_key_frames: 整型，关键帧数量
clip_description_embedding: 浮点型序列，长度768，剪辑描述嵌入
reaction_distribution: 浮点型序列，长度21，反应分布
movie_genre: 浮点型序列，长度23，电影类型
visual_feature: 二维浮点型数组，形状[176, 768]，视觉特征
audio_acoustic_feature: 二维浮点型数组，形状[176, 1024]，音频声学特征
audio_semantic_feature: 二维浮点型数组，形状[176, 1024]，音频语义特征

数据分片

训练集 (train): 7243个样本，28,780,644,620字节
验证集 (val): 1035个样本，4,112,655,972字节
测试集 (test): 2070个样本，8,225,311,923字节

下载与存储

下载大小: 8,946,422,642字节
数据集大小: 41,118,612,515字节

数据文件

Parquet格式: 通过push_to_hub上传的/data文件夹
原始格式文件:
- {split}_vit_bert-base-uncased_clap_general_hubert_large.pt: 包含以下潜在特征的PyTorch张量字典
  - visual_feature
  - audio_acoustic_feature
  - audio_semantic_feature
  - clip_description_embedding
- {split}.json: 原始元数据文件，记录视频信息

注意事项

时间维度长度不固定，范围16到176，Parquet版本中填充至最大长度176以适应HuggingFace系统

搜集汇总

数据集介绍

构建方式

Video2Reaction数据集通过多模态数据整合构建而成，涵盖了视频、音频和文本三种数据类型。该数据集采用先进的深度学习模型提取视觉特征、音频声学特征和语义特征，并通过BERT和CLAP模型生成文本描述嵌入。为了适配HuggingFace平台的数据格式要求，原始变长时间序列特征经过统一填充处理，确保时间维度一致。数据集的元信息以JSON格式保存，详细记录了视频ID、主导反应类别、关键帧数量等核心属性。

特点

Video2Reaction数据集最显著的特点在于其丰富的多模态表征能力。数据集包含768维的视觉特征向量、1024维的音频声学与语义特征向量，以及21维的反应分布概率和23维的电影类型分布。时间维度上，特征序列长度动态范围在16到176之间，为时序分析提供了灵活的空间。每个样本还包含768维的文本描述嵌入，实现了视觉、听觉与语义信息的深度融合。

使用方法

该数据集适用于多模态情感计算与观众反应预测研究。使用时可通过加载parquet格式文件或原始PyTorch张量文件获取特征数据，JSON元数据文件提供视频基础信息。研究人员可结合视觉、音频和文本特征进行端到端建模，利用反应分布数据训练分类或回归模型。测试集和验证集的划分便于模型性能评估，不同模态特征的组合使用能够探索跨模态关联规律。

背景与挑战

背景概述

Video2Reaction数据集是近年来多媒体情感计算领域的重要资源，由前沿研究团队构建，旨在探索视频内容与观众情感反应之间的复杂映射关系。该数据集整合了视频、音频及文本多模态特征，通过深度学习技术捕捉视觉、听觉与语义层面的情感线索。其核心研究问题聚焦于跨模态情感识别与预测，为影视内容分析、广告效果评估等领域提供了量化研究基础。数据集采用先进的BERT-base-uncased和Hubert-large等预训练模型提取特征，显著提升了情感表征的细粒度。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，多模态情感对齐的复杂性导致反应预测准确度受限，21维情感分布向量需解决高维稀疏性问题；23种电影类型与动态情感标签的交叉影响增加了建模难度。在构建过程中，变长时间序列特征处理尤为关键，原始视频特征时间维度16-176的跨度迫使采用零填充策略，可能引入噪声干扰。此外，视觉特征（768维）、声学特征（1024维）与语义特征（1024维）的异构融合，对跨模态表示学习架构设计提出了更高要求。

常用场景

经典使用场景

在多媒体情感计算领域，Video2Reaction数据集通过整合视频、音频及文本多模态特征，为研究者提供了分析观众情绪反应的丰富素材。该数据集特别适用于探索影视内容与观众情感反馈之间的关联机制，成为情感计算和内容推荐系统研究的重要基准。

衍生相关工作

该数据集催生了多模态融合架构的创新研究，如基于时空注意力的反应预测模型。相关衍生工作包括跨模态对比学习框架的构建，以及将音频语义特征与视觉特征相结合的混合神经网络，这些成果显著提升了情感计算的准确性和可解释性。

数据集最近研究