five

VATE|情感计算数据集|多模态学习数据集

收藏
github2024-07-05 更新2024-07-06 收录
情感计算
多模态学习
下载链接:
https://github.com/FrancescoAgnelli3/VATE
下载链接
链接失效反馈
资源简介:
VATE是一个丰富的情感计算数据集,名为视频-音频-文本情感(VATE)。它旨在捕捉多样化的数据,涵盖人类情感的不同方面。该数据集包括来自21,871个样本的原始视听数据和文本转录,特别设计用于自监督表示学习任务,无需手动标签。
创建时间:
2024-07-05
原始信息汇总

VATE 数据集概述

概览

VATE 是一个用于情感评估的视频-音频-文本多模态数据集。该数据集收集了多种自发人类情感状态的多模态数据,包含 21,871 个原始视频以及来自多个情感诱发访谈的语音记录和文本转录。VATE 专门设计用于人类情感状态的对比自监督表示学习,优先考虑数据的数量和质量,而不是情感的人工标注,后者在现代情感计算中往往是主观、不一致和有争议的。为了突出我们提案的实用性,我们发布了一个采用对比视频-语言-音频预训练程序的多模态编码器,该程序在 VATE 数据集上进行。实验结果表明,与不同下游任务上的完全监督基线相比,该模型展现出更好的少样本泛化能力。

数据集的概览可以在以下路径找到:

sh VATE/output/VATE/metadata.json

仓库结构

sh └── VATE/ ├── VATE.py ├── README.md ├── audio.py ├── contrastive_model.py ├── dataset.py ├── dataset_utils.py ├── feature_extraction │ ├── VATE │ ├── collect_yb.py │ ├── couples.txt │ ├── cut_video.py │ ├── input.txt │ ├── main.py │ └── write_video.py ├── main.py ├── media.py ├── output │ └── VATE │ ├── best_model_contrastive.pt │ └── metadata.json ├── text.py ├── train_test.py ├── utils.py └── video.py

入门指南

安装

  1. 克隆 VATE 仓库:

sh git clone https://github.com/FrancescoAgnelli3/VATE

  1. 切换到项目目录:

sh cd VATE

  1. 安装依赖项:

sh pip install -r requirements.txt

下载 VATE

使用以下命令下载 VATE 数据集:

  1. 切换到项目目录:

sh cd feature_extraction

  1. 下载数据集:

sh python main.py

数据集将下载到以下文件夹:

sh VATE/feature_extraction/VATE

如果你想添加其他 YouTube 播放列表到数据集,可以将其添加到 Python 文件并运行:

sh python collect_yb.py

然后再次运行:

sh python main.py

对比模型

  1. 在数据集上训练对比模型,切换到项目目录:

sh cd ..

  1. 训练模型:

sh python main.py

  1. 模型将保存在以下文件夹(或可以直接下载已预训练的模型):

sh VATE/output/VATE/best_model_contrastive.pt

贡献

要为项目做出贡献,请遵循以下指南:

  1. fork 仓库并将其克隆到本地机器。

  2. 为你的功能或错误修复创建一个新分支。

  3. 进行更改并提交它们,并附上描述性的提交消息。

  4. 将你的分支推送到你 fork 的仓库。

  5. 向主仓库提交拉取请求。

许可证

该项目受 MIT LICENSE 许可证保护。

AI搜集汇总
数据集介绍
main_image_url
构建方式
在情感计算领域,VATE数据集通过收集21,871个原始视频,结合语音记录和文本转录,构建了一个多模态数据集。这些数据源自多种情感诱发的访谈,旨在捕捉人类自发情感状态的多样性。数据集的构建过程中,特别强调数据的量与质,而非依赖于主观且常不一致的人类情感标签。这种设计理念使得VATE成为对比自监督表示学习的理想选择,尤其是在情感状态的识别与分析中。
使用方法
使用VATE数据集进行研究时,首先需克隆GitHub仓库并安装相关依赖。随后,可通过运行特定脚本下载数据集,并将其存储在指定目录中。若需扩展数据集,用户可添加YouTube播放列表并执行相应的数据收集脚本。训练对比模型时,用户需切换至项目目录并运行训练脚本,模型将自动保存或可直接下载预训练模型。通过这些步骤,研究者能够充分利用VATE数据集进行情感计算和多模态学习。
背景与挑战
背景概述
VATE数据集由米兰大学信息系PHuSe实验室的Francesco Agnelli、Giuliano Grossi、Alessandro D'amelio、Marco De Poli和Raffaella Lanzarotti等人创建。该数据集专注于情感计算领域,收集了21,871个包含多种自发人类情感状态的多模态数据,包括视频、语音和文本转录。VATE的设计旨在通过对比自监督表示学习来评估人类情感状态,强调数据的数量和质量,而非依赖主观且不一致的人类情感标签。这一方法在现代情感计算中具有重要意义,因为它能够提供更为客观和一致的情感分析基础。
当前挑战
VATE数据集在构建过程中面临多项挑战。首先,多模态数据的收集和整合需要处理不同数据源的异质性,确保数据的一致性和完整性。其次,情感标签的主观性和不一致性是情感计算领域长期存在的问题,VATE通过对比自监督学习方法试图解决这一挑战。此外,数据集的规模和多样性要求高效的存储和处理技术,以支持大规模的模型训练和验证。最后,如何在保持数据质量的同时,确保数据隐私和伦理合规,也是VATE数据集必须面对的重要问题。
常用场景
经典使用场景
在情感计算领域,VATE数据集的经典使用场景主要集中在多模态情感分析和自监督表示学习。该数据集通过收集大量包含自发人类情感状态的视频、音频和文本数据,为研究人员提供了一个丰富的资源库。通过对比学习方法,VATE数据集能够训练出能够有效捕捉和区分不同情感状态的多模态编码器。这种编码器在少样本学习任务中表现出色,显著优于传统的全监督学习方法。
解决学术问题
VATE数据集解决了情感计算领域中情感标注的主观性和不一致性问题。传统的情感标注依赖于人工标签,这往往导致标签的偏差和争议。VATE通过提供大量未经标注的多模态数据,使得研究人员能够利用自监督学习方法,自动生成情感表示,从而避免了人工标注的局限性。这不仅提高了情感识别的准确性,还推动了情感计算领域的发展。
实际应用
在实际应用中,VATE数据集的多模态情感分析能力可以广泛应用于人机交互、心理健康监测和娱乐产业。例如,在人机交互领域,通过分析用户的语音、面部表情和语言内容,系统可以实时调整其响应策略,提供更加个性化的服务。在心理健康监测中,VATE数据集可以帮助识别潜在的心理问题,及时提供干预措施。此外,在娱乐产业中,该数据集可以用于情感驱动的游戏设计和内容推荐。
数据集最近研究
最新研究方向
在情感计算领域,VATE数据集的最新研究方向主要集中在多模态情感表示的自监督学习上。该数据集通过收集大量自发情感状态的视频、音频和文本数据,旨在通过对比学习方法来提升情感状态的表示能力。研究者们利用VATE数据集进行视频-语言-音频的对比预训练,以期在下游任务中实现更好的少样本泛化能力。这一研究不仅推动了情感计算技术的发展,还为多模态数据处理提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

VEDAI

用于训练YOLO模型的VEDAI数据集,包含图像和标签,用于目标检测和跟踪。

github 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。

arXiv 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录