SocialOmni

Name: SocialOmni
Creator: 厦门大学·媒体分析与计算实验室; 厦门大学·人工智能研究所; 厦门大学·信息学院; 四川农业大学; 罗切斯特大学·计算机科学系
Published: 2026-03-18 01:58:44
License: 暂无描述

arXiv2026-03-18 更新2026-03-19 收录

下载链接：

https://huggingface.co/datasets/alexisty/SocialOmni

下载链接

链接失效反馈

官方服务：

资源简介：

SocialOmni是由厦门大学等机构联合构建的多模态社交互动基准数据集，旨在评估全模态大语言模型在动态对话中的社交交互能力。该数据集包含2,209个高质量多轮对话样本，涵盖15个领域，分为感知任务（2,000条多选问题）和生成任务（209条开放问答）。数据来源于严格筛选的公共视频平台CC-BY授权内容，通过自动转录和人工标注构建。其核心应用领域为测试模型在说话人识别、打断时机控制及自然打断生成三大维度的综合表现，解决现有基准对实时社交能力评估不足的问题。

SocialOmni is a multimodal social interaction benchmark dataset jointly constructed by Xiamen University and other institutions, aiming to evaluate the social interaction capabilities of full-modal large language models in dynamic conversations. This dataset includes 2,209 high-quality multi-turn dialogue samples spanning 15 domains, which are divided into two categories: perception tasks (2,000 multiple-choice questions) and generation tasks (209 open-ended questions). The data is sourced from strictly screened CC-BY licensed content on public video platforms, and constructed through automatic transcription and manual annotation. Its core application is to test the comprehensive performance of models across three dimensions: speaker recognition, interruption timing control, and natural interruption generation, addressing the issue that existing benchmarks fail to adequately evaluate real-time social interaction capabilities.

提供机构：

厦门大学·媒体分析与计算实验室; 厦门大学·人工智能研究所; 厦门大学·信息学院; 四川农业大学; 罗切斯特大学·计算机科学系

创建时间：

2026-03-18

原始信息汇总

SocialOmni 数据集概述

数据集基本信息

数据集名称：SocialOmni
发布平台：Hugging Face
许可证：MIT License

许可证信息

许可证类型：MIT License
许可证链接：https://huggingface.co/datasets/alexisty/SocialOmni/blob/main/LICENSE

搜集汇总

数据集介绍

构建方式

在构建SocialOmni数据集时，研究者首先针对多样化的多参与者对话场景构建了搜索词库，并基于公共平台上可检索视频的数量和质量进行系统筛选，确保所有视频均符合CC-BY兼容许可。通过爬取超过3000个原始视频，经过八名训练有素的标注员独立审查，提取出10至30秒的清晰多参与者对话片段，并依据音频清晰度、面部可见性和对话结构质量进行严格过滤，最终保留了2209个片段，平均时长为25.0秒。随后，利用Whisper和FunASR工具自动生成转录文本，为感知任务提供答案选项，并为生成任务提供参考文本，从而构建了包含2000个感知样本和209个交互生成实例的诊断集。

特点

SocialOmni数据集的核心特点在于其全面评估全模态大语言模型在社交交互能力上的三维框架：谁在说话、何时打断以及如何生成自然的中断。该数据集涵盖了15个对话领域，包括娱乐、体育、艺术和时尚等，确保了对话类型的广泛多样性。特别值得注意的是，数据集引入了受控的视听不一致场景，旨在测试模型在跨模态冲突下的鲁棒性。通过将感知任务与生成任务分离，SocialOmni能够深入揭示模型在感知准确性与生成质量之间的解耦现象，从而突出现有基于理解的评估指标的局限性。

使用方法

使用SocialOmni数据集时，研究者首先将模型暴露于包含视频和音频的多模态对话流中。对于感知任务，模型需要在特定时间戳识别说话者，从四个候选选项中选择正确答案，评估指标包括top-1准确率和宏F1分数。对于生成任务，模型需基于视频前缀判断何时发言，并在决定发言时生成上下文连贯的回应，评估涉及定时准确性和响应质量，后者通过LLM-as-a-judge协议由多个独立评委进行评分。数据集支持细粒度的时间对齐和跨模态冲突分析，使研究者能够全面评估模型在实时多参与者对话中的社交交互能力。

背景与挑战

背景概述

随着全模态大语言模型（OLMs）的快速发展，其在音频、视觉与文本融合交互方面展现出巨大潜力。然而，现有评估体系多聚焦于静态、以准确性为核心的理解任务，未能充分衡量模型在动态对话中的社会交互能力。为填补这一空白，厦门大学媒体分析与计算实验室联合罗切斯特大学等机构于2026年提出了SocialOmni数据集。该数据集旨在系统评估模型在多轮对话中的核心交互维度：说话人识别（谁在说话）、打断时机控制（何时插话）以及自然打断生成（如何表达）。SocialOmni包含2000个感知样本与209个生成诊断实例，覆盖15个对话领域，并引入受控的视听不一致场景以检验模型鲁棒性。该数据集的建立为全模态模型的社交能力评估提供了标准化基准，推动了人机交互研究向更自然、动态的方向演进。

当前挑战

SocialOmni所针对的核心领域问题是评估全模态大语言模型在真实对话环境中的社会交互能力，其挑战主要体现在多维度协同评估的复杂性。模型需在动态对话流中同步处理说话人身份、时序决策与内容生成，这要求跨模态信息的精细对齐与实时推理。具体而言，在说话人识别任务中，模型必须克服视听信息在时间粒度上的不匹配，尤其在镜头切换或视听不一致场景下准确绑定声音与视觉身份。在打断时机控制方面，模型需区分话语中的短暂停顿与真正的话轮转换边界，避免过早打断或延迟响应。而在自然打断生成中，模型不仅要保证语义连贯性，还需融入对话的情感基调与社交语境，生成符合人际规范的回应。构建过程中的挑战则集中于高质量多模态对话数据的采集与标注，需确保音频清晰度、人脸可见度以及话轮结构的明确性，同时通过严格的一致性校验与多轮裁定来保障标注可靠性。

常用场景

经典使用场景

在音频-视觉多模态对话系统研究领域，SocialOmni数据集被广泛用于评估全模态大语言模型在实时社交互动中的综合能力。该数据集通过精心设计的2000个感知样本和209个生成样本，模拟了真实世界中的多参与者对话场景，要求模型在动态的音频-视觉流中识别说话者身份、判断合适的打断时机并生成自然的打断回应。这一经典使用场景不仅检验了模型在静态理解任务上的表现，更深入探究了其在动态对话中的交互智能，为研究者提供了一个全面衡量模型社交互动能力的标准化测试平台。

解决学术问题

SocialOmni数据集有效解决了当前全模态大语言模型评估中存在的关键学术问题。传统基准测试往往局限于静态的、以准确性为中心的理解任务，忽视了对话中至关重要的社交互动维度。该数据集通过系统化定义“谁在说话”、“何时打断”以及“如何打断”三个核心维度，填补了评估模型在实时多模态对话中社交能力的空白。其意义在于揭示了感知准确性与生成质量之间的显著解耦现象，表明仅依赖理解性指标无法全面刻画模型的对话社交能力，从而推动了交互导向评估范式的发展，为未来模型设计提供了可操作的改进信号。

衍生相关工作

SocialOmni数据集的提出，催生并连接了一系列围绕全模态社交互动评估的经典研究工作。在基准测试方面，它与OmniBench、OmniVideoBench等静态理解基准形成互补，并与OmniMMI等交互式基准在评估维度上相互参照。在模型能力诊断上，其揭示的感知-生成解耦现象激发了后续研究对模型内部跨模态对齐机制的深入探索。此外，该数据集设计的双轴评估协议（结合帧级感知诊断与多评委生成评分）为后续工作提供了可借鉴的评估方法论，推动了诸如对话时序分析、跨模态一致性建模以及社交合理性生成等相关子领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集