ProxiVideoFriends

github2026-03-25 更新2026-03-18 收录

下载链接：

https://github.com/AVAuco/proxivideofriends

下载链接

链接失效反馈

官方服务：

资源简介：

ProxiVideoFriends是第一个专门为视频中的近体学估计设计的数据集，基于《Friends》第三季构建，用于研究动态、现实社交场景中的近体学。

ProxiVideoFriends is the first dataset specifically designed for Proxemics estimation in videos. It is constructed based on Season 3 of the TV series *Friends*, and is intended for research on Proxemics in dynamic and realistic social scenarios. The dataset includes annotations such as per-frame bounding boxes, character identities, pairwise Proxemics, and more.

创建时间：

2026-03-04

原始信息汇总

ProxiVideoFriends 数据集概述

数据集基本信息

数据集名称：ProxiVideoFriends
核心任务：首个用于视频中近体学（proxemics）分类的基准数据集。
数据来源：基于《Friends》（《老友记》）第三季的视频片段构建，用于研究动态、真实社交场景中的近体学。
发布日期：即将发布（数据集将以ZIP文件形式提供下载）。

数据集规模与构成

指标	数量
视频帧数	42,117
人物对数量	103,284
平均片段长度	4.7秒
视频帧率	24 FPS
训练集/测试集划分	13集用于训练 / 12集用于测试
数据重叠	无

标注信息

每帧标注内容：边界框、角色身份、成对级别的近体学标签、成对级别的社会关系标签。
近体学类别：Hand-Hand（手-手）、Hand-Shoulder（手-肩）、Shoulder-Shoulder（肩-肩）、Hand-Torso（手-躯干）、Hand-Elbow（手-肘）、Elbow-Shoulder（肘-肩）。
社会关系类别：Friends（朋友）、Family（家人）、Couple（伴侣）、Professional（职业关系）、Commercial（商业关系）、No Relation（无关系）。

研究贡献与方法

主要贡献：
1. 引入首个用于视频近体学估计的基准数据集。
2. 提出一个联合预测近体学和社会关系的时序多任务模型。
3. 与图像基线（ProxemicsNet++）和现代视频语言模型（Qwen3-VL-30B）进行了系统比较。
模型方法：提出一个时序多任务模型，使用预训练的时序视频骨干网络（如ResNet(2+1)D或mViTv2）分别编码目标人物对中每个人的裁剪区域以及包含两人的联合裁剪区域，并通过交叉注意力或CLS-token Transformer进行特征融合，以联合执行近体学（多标签任务）和社会关系（多分类任务）识别。同时探索了使用Whisper音频嵌入的多模态扩展。

性能结果

近体学分类性能（mAP）：
- ProxemicsNet++（帧基线）：17.9
- Qwen3-VL-30B（零样本）：28.1
- Qwen3-VL-30B（微调）：30.6
- mViTv2（时序模型）：30.2
- ResNet(2+1)D（时序模型）：32.5
- 提出的时序多任务模型：40.1
多任务学习效果：
- 仅近体学任务：近体学mAP为32.5。
- 仅关系任务：关系准确率为39.5，宏F1为17.0。
- 多任务学习（CLS融合）：近体学mAP为40.1，关系准确率为45.9，宏F1为20.1。
音频的影响：
- 添加音频后，关系分类准确率和宏F1有所提升（分别达到46.2和25.0），但近体学mAP下降至37.6。

关键结论

时序建模对于视频近体学理解至关重要。
联合空间-社会学习能带来最大的性能提升。
音频有助于社会关系识别，但对近体学识别无益。
现代视频语言模型在细粒度身体接触理解任务上仍存在困难。

获取与使用

数据集获取：数据集将以ZIP压缩包形式发布，需解压至与代码仓库同级目录下使用。
代码仓库结构：包含源代码、数据集工具、评估脚本、训练脚本等。
训练与测试：提供详细的安装、训练和测试命令行指令。

引用

如需在研究中引用本数据集或方法，请使用提供的BibTeX条目。

搜集汇总

数据集介绍

构建方式

在社交智能系统日益重要的背景下，理解人类空间交互的动态特性成为关键。ProxiVideoFriends数据集以经典剧集《Friends》第三季为素材，系统构建了首个专注于视频中近体学分类的基准。该数据集从剧集中提取了42,117帧视频片段，涵盖103,284对人物交互，平均剪辑长度为4.7秒，帧率为24fps。通过精细的人工标注，为每帧画面提供了人物边界框、身份信息，并对每对人物标注了六类物理接触标签（如手-手、肩-肩）和六类社会关系标签（如朋友、家庭、伴侣），确保了数据在时间和社交维度上的丰富性。

特点

ProxiVideoFriends数据集的核心特点在于其多维度的标注体系和真实的动态交互场景。作为首个专门为视频近体学估计设计的数据集，它不仅捕捉了静态的空间关系，更通过连续帧序列记录了人际距离的时序演变。数据集同时标注物理接触和社会关系，使得研究者能够探索两者之间的内在联系。所有视频片段均来自自然的社会互动场景，避免了人为摆拍，保证了数据的真实性和复杂性。数据划分采用剧集级别的分离，训练集与测试集无重叠，有效评估模型的泛化能力。

使用方法

该数据集主要用于训练和评估视频理解模型在近体学分类和社会关系识别上的性能。使用者需按照仓库结构指引，将数据集解压至与代码库同级目录。通过提供的Python脚本，可灵活配置训练任务，支持单独训练近体学或关系识别，也可进行多任务联合训练。模型架构允许选择不同的视觉骨干网络（如ResNet(2+1)D、mViTv2）和特征融合策略，并可选择集成音频模态。评估阶段，用户可加载训练好的最佳或最终检查点，在测试集上计算平均精度（mAP）等指标，并与提供的图像基线及视频语言模型进行系统比较。

背景与挑战

背景概述

在社交智能系统与具身人工智能的研究浪潮中，理解人类非语言交流的空间动态——即人际距离学（Proxemics），对于构建具备社会意识的机器人、虚拟化身及增强现实代理至关重要。由Isabel Jiménez-Velasco、Rafael Muñoz-Salinas、Vicky Kalogeiton与Manuel J. Marín-Jiménez等研究人员于2026年推出的ProxiVideoFriends数据集，标志着视频人际距离学领域的首个专用基准。该数据集源自经典剧集《Friends》第三季，旨在探究动态社交场景中身体接触与空间关系的时序演变。其核心研究问题聚焦于如何通过视频时序建模与社会关系推理，实现细粒度的人际距离分类，从而推动社交人工智能在理解人类互动空间规范方面取得实质性进展。

当前挑战

ProxiVideoFriends数据集致力于解决视频人际距离分类这一前沿问题，其面临的核心挑战在于如何精准捕捉并理解动态交互中细微且多变的物理接触模式。构建过程中的主要困难体现在数据标注的复杂性上，需在每帧图像中为人物对标注边界框、身份信息，并同时标注多标签人际距离（如手-手、肩-肩等）与多类别社会关系（如朋友、伴侣等），这要求标注者具备高度细致的观察力与一致性。此外，从连续视频流中提取具有代表性且无重叠的剪辑片段，并确保训练与测试集在剧集分布上的平衡，亦是数据集构建中需要克服的技术障碍。

常用场景

经典使用场景

在社交智能系统领域，ProxiVideoFriends数据集为视频中的人际距离（近体学）分类提供了首个基准。其经典使用场景聚焦于动态社交互动分析，通过从《老友记》剧集中提取的真实视频片段，系统捕捉人物间随时间演变的物理接触模式。研究者利用该数据集训练多任务时序模型，以联合推断近体学类别（如手-手、肩-肩接触）与社会关系（如朋友、伴侣），从而深入理解人类非语言交流中的空间使用行为。

实际应用

在实际应用层面，ProxiVideoFriends为社交机器人、虚拟化身及增强/虚拟现实中的具身代理提供了关键训练与评估资源。基于该数据集开发的系统能够更准确地判断人际距离的适当性，避免机器人侵入个人空间或虚拟角色行为失当。此外，其在模拟人类互动、设计人性化人机界面以及开发智能监控系统等领域也具有潜在价值，有助于构建真正理解社交场景中空间使用规范的人工智能。

衍生相关工作

围绕ProxiVideoFriends数据集，已衍生出一系列经典研究工作。其中，作者提出的时序多任务架构通过融合ResNet(2+1)D或mViTv2等视频骨干网络，实现了近体学与社会关系的联合预测。同时，研究团队系统比较了基于图像的ProxemicsNet++基线方法与微调后的Qwen3-VL-30B模型，揭示了时序建模与多任务学习的显著优势。这些工作为后续探索多模态融合、细粒度接触理解以及跨领域近体学迁移学习奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集