SNS-Bench-VL

Name: SNS-Bench-VL
Creator: 北京航空航天大学, 小红书有限公司, 复旦大学, 牛津大学
Published: 2025-05-29 12:16:24
License: 暂无描述

arXiv2025-05-29 更新2025-05-31 收录

下载链接：

https://github.com/HC-Guo/SNS-Bench-VL

下载链接

链接失效反馈

官方服务：

资源简介：

SNS-Bench-VL是一个全面的多模态基准，旨在评估视觉语言大型语言模型（LLM）在社交网络服务（SNS）场景中的表现。该数据集包含4001个精心策划的多模态问答对，涵盖单选、多选和开放式任务，跨越8个多模态任务，包括笔记理解、用户参与分析、信息检索和个性化推荐。数据集来自一个拥有超过30亿用户的社交平台，确保了真实反映现实世界社交媒体互动。数据收集过程包括数据收集和处理、不同SNS相关任务的仔细注释以及跨模态质量控制和人机验证。SNS-Bench-VL旨在推动下一代社交网络服务中的鲁棒、情境感知和人性化的多模态智能研究。

SNS-Bench-VL is a comprehensive multimodal benchmark aimed at evaluating the performance of vision-language large language models (LLMs) in social network service (SNS) scenarios. This dataset contains 4001 carefully curated multimodal question-answer pairs, covering single-choice, multiple-choice, and open-ended tasks, spanning 8 multimodal tasks including note comprehension, user engagement analysis, information retrieval, and personalized recommendation. The dataset is sourced from a social platform with over 3 billion users, ensuring it authentically reflects real-world social media interactions. The data collection process includes data collection and processing, careful annotation of various SNS-related tasks, cross-modal quality control, and human-machine verification. SNS-Bench-VL seeks to advance research on robust, context-aware, and human-like multimodal intelligence in next-generation social network services.

提供机构：

北京航空航天大学, 小红书有限公司, 复旦大学, 牛津大学

创建时间：

2025-05-29

搜集汇总

数据集介绍

构建方式

SNS-Bench-VL数据集的构建采用了系统化的多阶段方法，以确保数据的多样性和真实性。首先，研究人员从拥有超过30亿用户的主流社交平台获取多模态数据，涵盖文本、图像、标签和用户互动等多种内容形式。数据收集过程中特别注重主题多样性（如时尚、旅行、美食等）、用户群体覆盖和时间跨度（2022-2025年）。随后通过九步严格的数据处理流程，包括去标识化、任务无关处理、专家审核等质量控制环节，最终形成包含4,001个多模态问答对的基准数据集。每个样本都经过Qwen-72B-VL模型评分和至少三名专家的交叉验证，确保数据质量与伦理合规性。

特点

该数据集具有三个显著特征：多模态任务覆盖全面性，包含笔记理解、用户参与分析等8类社交网络核心任务；真实场景代表性，所有数据均来自实际社交平台并保持原始交互特征；评估维度立体化，通过单选、多选和开放式问题组合，综合考察模型在OCR准确率（TroCR工具辅助）、跨模态推理（BGE评分）和情感理解等能力。特别设计的Note-Gender任务采用三级分类体系，有效避免了性别刻板印象偏差，而Note-Taxonomy任务则通过层次化标签体系检验细粒度分类能力。

使用方法

使用该数据集时，研究者可通过标准化任务提示模板（如Note-OCR任务的字符识别模板或Note-MRC任务的阅读理解模板）对模型进行零样本评估。评估指标根据任务特性差异化设计：分类任务采用准确率（Note-Hashtag）或宏平均准确率（Note-Taxonomy三层次），生成任务结合BLEU和ROUGE指标，而复杂推理任务则使用BGE语义相似度评分。实验配置建议使用128块NVIDIA A100 GPU，所有模型统一提示词以保证公平性。数据集提供的混淆矩阵分析工具（如图Note-Gender任务的可视化）可辅助模型能力缺陷诊断。

背景与挑战

背景概述

SNS-Bench-VL是由北京航空航天大学、小红书公司、复旦大学和牛津大学的研究团队于2025年提出的多模态大语言模型评测基准。该数据集聚焦社交网络服务(SNS)场景，旨在解决现有基准以文本为中心、缺乏对现代SNS多模态语境覆盖的局限性。数据集包含4,001个经过严格筛选的图文问答对，涵盖笔记理解、用户参与分析等8项核心任务，填补了社交场景多模态能力评估的空白。作为首个面向SNS环境设计的综合性多模态基准，其数据来源于用户规模超30亿的主流社交平台，通过九步质量控制流程确保数据的真实性与多样性，对推动社交媒体的智能化发展具有重要意义。

当前挑战

构建SNS-Bench-VL面临双重挑战：其一，领域问题方面需解决社交内容的多模态语义融合难题，包括跨模态情感推理、文化语境理解及隐式社交意图识别等复杂任务；其二，技术实现层面涉及海量异构数据处理，需克服用户生成内容的噪声过滤、视觉文本对齐校验以及隐私脱敏等工程难题。具体挑战包括：1) 多模态关联标注中视觉依赖度的量化评估；2) 社交场景特有的非正式表达与网络用语标准化；3) 避免推荐任务中的算法偏见；4) 跨语言OCR识别的准确率提升；5) 时效性内容与长期价值的平衡。这些挑战通过混合自动化评分与三重人工验证机制予以应对。

常用场景

经典使用场景

在社交网络服务（SNS）领域，多模态大语言模型（MLLMs）的评估需求日益增长。SNS-Bench-VL数据集通过精心设计的8项多模态任务，如笔记理解、用户参与度分析和个性化推荐，为研究者提供了一个全面的评估框架。该数据集包含4001个多模态问答对，覆盖了单选、多选和开放式任务，能够有效模拟真实社交媒体的复杂交互场景。

衍生相关工作

SNS-Bench-VL的发布催生了一系列创新研究。基于其构建的MM-SOC和GOAT-Bench等衍生工作，进一步扩展了多模态模型在虚假信息检测、网络暴力识别等细分场景的应用。同时，该数据集启发了如CRAVE事实核查框架和MIKO意图推理模型等研究，推动了多模态大模型在社会计算领域的纵深发展。

数据集最近研究