VATE

github2024-07-05 更新2024-07-06 收录

下载链接：

https://github.com/FrancescoAgnelli3/VATE

下载链接

链接失效反馈

官方服务：

资源简介：

VATE是一个丰富的情感计算数据集，名为视频-音频-文本情感（VATE）。它旨在捕捉多样化的数据，涵盖人类情感的不同方面。该数据集包括来自21,871个样本的原始视听数据和文本转录，特别设计用于自监督表示学习任务，无需手动标签。

VATE is a rich affective computing dataset named Video-Audio-Text Emotion (VATE). It aims to capture diverse data covering various aspects of human emotions. This dataset includes raw audio-visual data and text transcripts from 21,871 samples, and is specifically designed for self-supervised representation learning tasks without manual labels.

创建时间：

2024-07-05

原始信息汇总

VATE 数据集概述

概览

VATE 是一个用于情感评估的视频-音频-文本多模态数据集。该数据集收集了多种自发人类情感状态的多模态数据，包含 21,871 个原始视频以及来自多个情感诱发访谈的语音记录和文本转录。VATE 专门设计用于人类情感状态的对比自监督表示学习，优先考虑数据的数量和质量，而不是情感的人工标注，后者在现代情感计算中往往是主观、不一致和有争议的。为了突出我们提案的实用性，我们发布了一个采用对比视频-语言-音频预训练程序的多模态编码器，该程序在 VATE 数据集上进行。实验结果表明，与不同下游任务上的完全监督基线相比，该模型展现出更好的少样本泛化能力。

数据集的概览可以在以下路径找到：

sh VATE/output/VATE/metadata.json

仓库结构

sh └── VATE/ ├── VATE.py ├── README.md ├── audio.py ├── contrastive_model.py ├── dataset.py ├── dataset_utils.py ├── feature_extraction │ ├── VATE │ ├── collect_yb.py │ ├── couples.txt │ ├── cut_video.py │ ├── input.txt │ ├── main.py │ └── write_video.py ├── main.py ├── media.py ├── output │ └── VATE │ ├── best_model_contrastive.pt │ └── metadata.json ├── text.py ├── train_test.py ├── utils.py └── video.py

入门指南

安装

克隆 VATE 仓库：

sh git clone https://github.com/FrancescoAgnelli3/VATE

sh cd VATE

安装依赖项：

sh pip install -r requirements.txt

下载 VATE

使用以下命令下载 VATE 数据集：

sh cd feature_extraction

下载数据集：

sh python main.py

数据集将下载到以下文件夹：

sh VATE/feature_extraction/VATE

如果你想添加其他 YouTube 播放列表到数据集，可以将其添加到 Python 文件并运行：

sh python collect_yb.py

然后再次运行：

sh python main.py

对比模型

sh cd ..

训练模型：

sh python main.py

模型将保存在以下文件夹（或可以直接下载已预训练的模型）：

sh VATE/output/VATE/best_model_contrastive.pt

贡献

要为项目做出贡献，请遵循以下指南：

fork 仓库并将其克隆到本地机器。
为你的功能或错误修复创建一个新分支。
进行更改并提交它们，并附上描述性的提交消息。
将你的分支推送到你 fork 的仓库。
向主仓库提交拉取请求。

许可证

该项目受 MIT LICENSE 许可证保护。

搜集汇总

数据集介绍

构建方式

在情感计算领域，VATE数据集通过收集21,871个原始视频，结合语音记录和文本转录，构建了一个多模态数据集。这些数据源自多种情感诱发的访谈，旨在捕捉人类自发情感状态的多样性。数据集的构建过程中，特别强调数据的量与质，而非依赖于主观且常不一致的人类情感标签。这种设计理念使得VATE成为对比自监督表示学习的理想选择，尤其是在情感状态的识别与分析中。

使用方法

使用VATE数据集进行研究时，首先需克隆GitHub仓库并安装相关依赖。随后，可通过运行特定脚本下载数据集，并将其存储在指定目录中。若需扩展数据集，用户可添加YouTube播放列表并执行相应的数据收集脚本。训练对比模型时，用户需切换至项目目录并运行训练脚本，模型将自动保存或可直接下载预训练模型。通过这些步骤，研究者能够充分利用VATE数据集进行情感计算和多模态学习。

背景与挑战

背景概述

VATE数据集由米兰大学信息系PHuSe实验室的Francesco Agnelli、Giuliano Grossi、Alessandro D'amelio、Marco De Poli和Raffaella Lanzarotti等人创建。该数据集专注于情感计算领域，收集了21,871个包含多种自发人类情感状态的多模态数据，包括视频、语音和文本转录。VATE的设计旨在通过对比自监督表示学习来评估人类情感状态，强调数据的数量和质量，而非依赖主观且不一致的人类情感标签。这一方法在现代情感计算中具有重要意义，因为它能够提供更为客观和一致的情感分析基础。

当前挑战

VATE数据集在构建过程中面临多项挑战。首先，多模态数据的收集和整合需要处理不同数据源的异质性，确保数据的一致性和完整性。其次，情感标签的主观性和不一致性是情感计算领域长期存在的问题，VATE通过对比自监督学习方法试图解决这一挑战。此外，数据集的规模和多样性要求高效的存储和处理技术，以支持大规模的模型训练和验证。最后，如何在保持数据质量的同时，确保数据隐私和伦理合规，也是VATE数据集必须面对的重要问题。

常用场景

经典使用场景

在情感计算领域，VATE数据集的经典使用场景主要集中在多模态情感分析和自监督表示学习。该数据集通过收集大量包含自发人类情感状态的视频、音频和文本数据，为研究人员提供了一个丰富的资源库。通过对比学习方法，VATE数据集能够训练出能够有效捕捉和区分不同情感状态的多模态编码器。这种编码器在少样本学习任务中表现出色，显著优于传统的全监督学习方法。

解决学术问题

VATE数据集解决了情感计算领域中情感标注的主观性和不一致性问题。传统的情感标注依赖于人工标签，这往往导致标签的偏差和争议。VATE通过提供大量未经标注的多模态数据，使得研究人员能够利用自监督学习方法，自动生成情感表示，从而避免了人工标注的局限性。这不仅提高了情感识别的准确性，还推动了情感计算领域的发展。

实际应用

在实际应用中，VATE数据集的多模态情感分析能力可以广泛应用于人机交互、心理健康监测和娱乐产业。例如，在人机交互领域，通过分析用户的语音、面部表情和语言内容，系统可以实时调整其响应策略，提供更加个性化的服务。在心理健康监测中，VATE数据集可以帮助识别潜在的心理问题，及时提供干预措施。此外，在娱乐产业中，该数据集可以用于情感驱动的游戏设计和内容推荐。

数据集最近研究