CONVERSE

Name: CONVERSE
Creator: 德国人工智能研究中心（DFKI）, 微软, ELLIS 图宾根研究所和智能系统MPI, 图宾根人工智能中心
Published: 2025-11-07 23:49:49
License: 暂无描述

arXiv2025-11-07 更新2025-08-07 收录

下载链接：

https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/FJ8MRB

下载链接

链接失效反馈

官方服务：

资源简介：

CONVERSE是一个用于评估多智能体交互中隐私和安全风险的动态基准测试数据集。该数据集包含三个现实合作领域（旅游、房地产、保险）的864个上下文相关的攻击，其中611个针对隐私泄露，253个针对安全违规。每个交互都由一个助手和外部代理之间的多轮对话组成。数据集通过三层隐私分类法评估抽象质量，而安全攻击则针对工具使用和偏好操纵。该数据集旨在帮助理解和改善当前大型语言模型在多智能体交互中的隐私和安全问题。

CONVERSE is a dynamic benchmark dataset designed for evaluating privacy and security risks in multi-agent interactions. This dataset encompasses 864 context-aware attack cases across three real-world collaborative domains: tourism, real estate, and insurance, with 611 targeting privacy leaks and 253 focusing on security violations. Each interaction consists of multi-turn dialogues between an assistant and external agents. The dataset utilizes a three-layer privacy taxonomy to evaluate the abstract quality of privacy-related attacks, while security attacks are oriented towards tool usage and preference manipulation. This dataset aims to aid in understanding and improving the privacy and security issues of current large language models (LLMs) in multi-agent interaction scenarios.

提供机构：

德国人工智能研究中心（DFKI）, 微软, ELLIS 图宾根研究所和智能系统MPI, 图宾根人工智能中心

创建时间：

2025-11-07

搜集汇总

数据集介绍

构建方式

Multi-human Interactive Talking dataset (MIT) 的构建采用了自动化数据收集流程，通过从在线平台收集多人物对话视频，并利用WhisperV进行视频分段和面部轨迹跟踪。随后，使用TalkNet提取说话分数，Sapiens-2B提取2D骨骼关键点，并通过YOLOv7检测的人体边界框进行多模态信号对齐。最终数据集包含12小时的高分辨率视频，涵盖2至4名说话者，并附有精细的身体姿态和语音互动标注。

特点

MIT数据集的特点在于其专注于多人物交互对话场景，捕捉了丰富的交互模式，如轮流发言、同时发言和快速角色切换等。数据集不仅提供了高分辨率的视频片段，还包含了精细的身体姿态标注和说话分数，为研究多人物语音驱动的视频生成提供了全面资源。此外，数据集的自动化构建流程支持未来的扩展性，使其成为该领域的宝贵基准。

使用方法

MIT数据集的使用方法包括利用其提供的多人物姿态标注和说话分数进行语音驱动的视频生成研究。研究人员可以通过基线模型CovOG，结合Multi-Human Pose Encoder (MPE)和Interactive Audio Driver (IAD)，生成自然的多人物对话视频。此外，数据集还可用于评估多人物交互建模的算法性能，特别是在处理复杂交互模式时的表现。

背景与挑战

背景概述

Multi-human Interactive Talking dataset (MIT) 是由新加坡国立大学Show Lab团队于2025年提出的创新性数据集，旨在填补多人在场交互式对话视频生成领域的研究空白。该数据集包含12小时的高清视频素材，记录了2至4人参与的复杂对话场景，并精细标注了身体姿态与语音交互特征。相较于传统单人口型动画或孤立面部表情数据集，MIT首次实现了对多人自然对话中非语言交流行为（如眼神接触、肢体语言）和动态角色转换（如发言权交替、重叠发言）的系统性捕捉。其创新性的自动数据采集流程整合了WhisperV语音分割、Sapiens-2B姿态估计等前沿技术，为社交机器人、虚拟会议等应用场景提供了重要的基准资源。

当前挑战

MIT数据集面临的核心挑战体现在两个维度：在学术层面，现有单人口型动画模型难以建模多人对话中复杂的非对称交互模式，如发言者与倾听者的动态角色切换、多人同时发言时的注意力分配等问题；在构建层面，真实场景的多视角视频存在镜头切换频繁、人物遮挡严重等干扰因素，需开发创新的自动标注算法来保证跨模态数据（语音-姿态-身份）的时空对齐精度。特别地，侧脸说话场景的唇部运动建模、可变人数情况下的姿态编码等子问题，都对生成模型的鲁棒性提出了更高要求。

常用场景

经典使用场景

Multi-human Interactive Talking dataset (MIT) 最经典的使用场景在于多人物交互式对话视频的生成研究。该数据集通过捕捉2至4名说话者的自然对话动态，包括身体姿态和语音交互的细粒度标注，为研究者提供了一个丰富的资源库。在计算机视觉和人工智能领域，MIT数据集被广泛用于探索多说话者场景下的视听同步、角色转换和非语言交流行为，如眼神接触和手势。其高分辨率的视频片段和自动化的数据收集流程，使得该数据集成为研究多人物交互式视频生成的理想基准。

衍生相关工作

MIT数据集衍生了一系列经典研究工作，特别是在多人物交互式视频生成领域。基于MIT提出的CovOG模型，研究者们进一步探索了多人物姿态编码和交互式音频驱动的优化方法。此外，MIT数据集还启发了对多人物场景下视听同步、角色转换和非语言交流行为的深入研究。相关衍生工作包括INFP等交互式头部生成研究，以及更多专注于多人物全身交互和非语言行为建模的创新方法。这些工作共同推动了多人物交互式视频生成技术的发展。

数据集最近研究