VENUS

github2025-06-18 更新2025-06-27 收录

下载链接：

https://github.com/winston1214/nonverbal-conversation

下载链接

链接失效反馈

官方服务：

资源简介：

VENUS是一个大规模多模态数据集，用于学习视频对话中的非语言线索。它包括不同规模的子集，如VENUS-1K（1,000个注释样本用于原型设计）、VENUS-5K（5,000个样本用于小规模训练）、VENUS-10K（10,000个样本用于中等规模训练）等。

VENUS is a large-scale multimodal dataset for learning non-verbal cues in video conversations. It includes subsets of varying scales, such as VENUS-1K (1,000 annotated samples for prototyping), VENUS-5K (5,000 samples for small-scale training), VENUS-10K (10,000 samples for medium-scale training), and so on.

创建时间：

2025-06-05

原始信息汇总

数据集概述：Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues (ACL 2025 Main)

数据集基本信息

作者: Youngmin Kim, Jiwan Chung, Jisoo Kim, Sunghyun Lee, Sangkyu Lee, Junhyeok Kim, Cheoljong Yang, Youngjae Yu
论文链接: https://arxiv.org/abs/2506.00958

数据集版本

VENUS-1K: 1,000个标注样本，用于原型设计
VENUS-5K: 5,000个样本，用于小规模训练
VENUS-10K: 10,000个样本，用于中等规模训练
VENUS-50K: 即将发布
VENUS-100K: 完整数据集，即将发布

数据集加载方式

python from datasets import load_dataset

更改数据集大小

train_dataset = load_dataset("winston1214/VENUS-1K", split = "train") test_dataset = load_dataset("winston1214/VENUS-1K", split = "test")

数据集详细信息

详细信息链接: https://github.com/winston1214/nonverbal-conversation/tree/main/VENUS

非语言线索标记化

VQ-VAE训练: 包括Item 1, Item 2, Item 3

贡献者

Youngmin Kim: 数据集收集与整理、模型实现、实验设计、可视化、写作、数据分析规划、项目协调
Jiwan Chung: 项目管理、写作审阅与编辑、模型管道设计
Jisoo Kim: 3D可视化、3D标注系统实现
Sunghyun Lee: 数据分析、数据收集协助
Sangkyu Lee: 数据收集管道设计、模型管道设计
Junhyeok Kim: 相关论文提及
Cheoljong Yang: 资金获取
Youngjae Yu: 监督、通讯作者

联系方式

邮箱: winston1214@yonsei.ac.kr

搜集汇总

数据集介绍

构建方式

在非语言交流研究领域，VENUS数据集通过精心设计的视频对话框架构建而成。研究团队采用多模态数据采集方法，整合了yt-dlp、WhisperX等开源工具进行视频处理和语音识别，结合Light-ASD、OSX等先进模型进行3D姿态和表情标注。数据集采用渐进式构建策略，从1,000样本的原型集到计划中的100,000样本完整集，每个样本都经过严格的多维度标注，包括语音内容、面部表情、肢体动作等非语言线索。

使用方法

研究者可通过Hugging Face平台便捷获取VENUS数据集的不同规模版本。使用Python的datasets库，只需简单调用load_dataset函数并指定相应数据集名称（如winston1214/VENUS-1K）和分割方式（train/test）即可加载。数据集采用标准化的多模态数据格式，便于与主流深度学习框架集成。对于高级应用，建议参考项目GitHub页面提供的详细文档，其中包含VQ-VAE训练等专业技术方案。数据集特别适合用于探索视频对话场景中的多模态表征学习与非语言线索分析。

背景与挑战

背景概述

VENUS数据集由Youngmin Kim等研究人员于2025年提出，旨在通过大规模多模态视频对话数据探索非语言线索的学习机制。该数据集由韩国延世大学团队主导开发，聚焦于人际交流中面部表情、肢体动作等非语言信息对语义理解的辅助作用。作为ACL主会议推荐资源，其创新性地将视频帧序列与对话文本对齐标注，填补了多模态情感计算领域缺乏细粒度非语言标注数据的空白，为人机交互、情感识别等研究方向提供了关键基准。

当前挑战

该数据集首要解决多模态情境下非语言线索的细粒度建模难题，需克服视频与文本模态间时序对齐偏差、跨文化非语言符号差异等核心问题。数据构建过程中面临三大技术挑战：大规模视频对话数据的清洗与去标识化处理、高精度3D人体姿态与面部动作的自动化标注系统开发，以及对话场景中多模态噪声的分离与抑制。此外，数据规模从1K到100K的扩展需保持标注质量的一致性，这对分布式标注系统的鲁棒性提出了极高要求。

常用场景

经典使用场景

在自然语言处理与多模态学习领域，VENUS数据集通过视频对话中的非语言线索（如面部表情、手势和语调）为研究者提供了丰富的分析素材。该数据集特别适用于训练和评估能够理解并生成多模态对话的模型，为情感计算、社交机器人交互等任务提供了关键数据支持。

解决学术问题

VENUS数据集解决了多模态对话系统中非语言线索建模的难题。传统研究多聚焦于文本或单一模态，而该数据集通过整合视频与对话文本，填补了非语言行为与语义关联的研究空白。其大规模标注数据为探索非语言信号在对话理解中的作用提供了实证基础，推动了多模态表示学习的发展。

实际应用

该数据集的实际应用涵盖智能客服、虚拟助手和心理健康监测等领域。例如，基于VENUS训练的模型可更准确地捕捉用户情绪，提升人机交互的自然性；在远程医疗中，系统可通过分析患者的非语言行为辅助诊断。其细粒度标注还为影视行业的情感分析和动画生成提供了技术支持。

数据集最近研究