SNS-Bench-VL
收藏arXiv2025-05-29 更新2025-05-31 收录
下载链接:
https://github.com/HC-Guo/SNS-Bench-VL
下载链接
链接失效反馈官方服务:
资源简介:
SNS-Bench-VL是一个全面的多模态基准,旨在评估视觉语言大型语言模型(LLM)在社交网络服务(SNS)场景中的表现。该数据集包含4001个精心策划的多模态问答对,涵盖单选、多选和开放式任务,跨越8个多模态任务,包括笔记理解、用户参与分析、信息检索和个性化推荐。数据集来自一个拥有超过30亿用户的社交平台,确保了真实反映现实世界社交媒体互动。数据收集过程包括数据收集和处理、不同SNS相关任务的仔细注释以及跨模态质量控制和人机验证。SNS-Bench-VL旨在推动下一代社交网络服务中的鲁棒、情境感知和人性化的多模态智能研究。
SNS-Bench-VL is a comprehensive multimodal benchmark aimed at evaluating the performance of vision-language large language models (LLMs) in social network service (SNS) scenarios. This dataset contains 4001 carefully curated multimodal question-answer pairs, covering single-choice, multiple-choice, and open-ended tasks, spanning 8 multimodal tasks including note comprehension, user engagement analysis, information retrieval, and personalized recommendation. The dataset is sourced from a social platform with over 3 billion users, ensuring it authentically reflects real-world social media interactions. The data collection process includes data collection and processing, careful annotation of various SNS-related tasks, cross-modal quality control, and human-machine verification. SNS-Bench-VL seeks to advance research on robust, context-aware, and human-like multimodal intelligence in next-generation social network services.
提供机构:
北京航空航天大学, 小红书有限公司, 复旦大学, 牛津大学
创建时间:
2025-05-29
搜集汇总
数据集介绍

构建方式
SNS-Bench-VL数据集的构建采用了系统化的多阶段方法,以确保数据的多样性和真实性。首先,研究人员从拥有超过30亿用户的主流社交平台获取多模态数据,涵盖文本、图像、标签和用户互动等多种内容形式。数据收集过程中特别注重主题多样性(如时尚、旅行、美食等)、用户群体覆盖和时间跨度(2022-2025年)。随后通过九步严格的数据处理流程,包括去标识化、任务无关处理、专家审核等质量控制环节,最终形成包含4,001个多模态问答对的基准数据集。每个样本都经过Qwen-72B-VL模型评分和至少三名专家的交叉验证,确保数据质量与伦理合规性。
特点
该数据集具有三个显著特征:多模态任务覆盖全面性,包含笔记理解、用户参与分析等8类社交网络核心任务;真实场景代表性,所有数据均来自实际社交平台并保持原始交互特征;评估维度立体化,通过单选、多选和开放式问题组合,综合考察模型在OCR准确率(TroCR工具辅助)、跨模态推理(BGE评分)和情感理解等能力。特别设计的Note-Gender任务采用三级分类体系,有效避免了性别刻板印象偏差,而Note-Taxonomy任务则通过层次化标签体系检验细粒度分类能力。
使用方法
使用该数据集时,研究者可通过标准化任务提示模板(如Note-OCR任务的字符识别模板或Note-MRC任务的阅读理解模板)对模型进行零样本评估。评估指标根据任务特性差异化设计:分类任务采用准确率(Note-Hashtag)或宏平均准确率(Note-Taxonomy三层次),生成任务结合BLEU和ROUGE指标,而复杂推理任务则使用BGE语义相似度评分。实验配置建议使用128块NVIDIA A100 GPU,所有模型统一提示词以保证公平性。数据集提供的混淆矩阵分析工具(如图Note-Gender任务的可视化)可辅助模型能力缺陷诊断。
背景与挑战
背景概述
SNS-Bench-VL是由北京航空航天大学、小红书公司、复旦大学和牛津大学的研究团队于2025年提出的多模态大语言模型评测基准。该数据集聚焦社交网络服务(SNS)场景,旨在解决现有基准以文本为中心、缺乏对现代SNS多模态语境覆盖的局限性。数据集包含4,001个经过严格筛选的图文问答对,涵盖笔记理解、用户参与分析等8项核心任务,填补了社交场景多模态能力评估的空白。作为首个面向SNS环境设计的综合性多模态基准,其数据来源于用户规模超30亿的主流社交平台,通过九步质量控制流程确保数据的真实性与多样性,对推动社交媒体的智能化发展具有重要意义。
当前挑战
构建SNS-Bench-VL面临双重挑战:其一,领域问题方面需解决社交内容的多模态语义融合难题,包括跨模态情感推理、文化语境理解及隐式社交意图识别等复杂任务;其二,技术实现层面涉及海量异构数据处理,需克服用户生成内容的噪声过滤、视觉文本对齐校验以及隐私脱敏等工程难题。具体挑战包括:1) 多模态关联标注中视觉依赖度的量化评估;2) 社交场景特有的非正式表达与网络用语标准化;3) 避免推荐任务中的算法偏见;4) 跨语言OCR识别的准确率提升;5) 时效性内容与长期价值的平衡。这些挑战通过混合自动化评分与三重人工验证机制予以应对。
常用场景
经典使用场景
在社交网络服务(SNS)领域,多模态大语言模型(MLLMs)的评估需求日益增长。SNS-Bench-VL数据集通过精心设计的8项多模态任务,如笔记理解、用户参与度分析和个性化推荐,为研究者提供了一个全面的评估框架。该数据集包含4001个多模态问答对,覆盖了单选、多选和开放式任务,能够有效模拟真实社交媒体的复杂交互场景。
衍生相关工作
SNS-Bench-VL的发布催生了一系列创新研究。基于其构建的MM-SOC和GOAT-Bench等衍生工作,进一步扩展了多模态模型在虚假信息检测、网络暴力识别等细分场景的应用。同时,该数据集启发了如CRAVE事实核查框架和MIKO意图推理模型等研究,推动了多模态大模型在社会计算领域的纵深发展。
数据集最近研究
最新研究方向
随着社交网络服务(SNS)中视觉与文本内容的深度融合,多模态大语言模型(MLLMs)的评估成为提升用户体验、内容理解和平台智能化的关键。SNS-Bench-VL作为首个专为社交网络环境设计的综合性多模态基准测试,涵盖了笔记理解、用户参与度分析、信息检索和个性化推荐等8项任务,共包含4001个精心筛选的多模态问答对。该数据集不仅填补了现有基准测试在社交网络多模态场景中的空白,还为模型在真实社交环境中的表现提供了系统化评估框架。前沿研究方向包括多模态社交语境理解、情感与文化背景的深度挖掘,以及跨模态推理能力的优化。近期研究表明,尽管闭源模型在多数任务中表现优异,但开源模型如Qwen2.5-VL-72B-Instruct已展现出显著竞争力,性能差距缩小至1%以内,凸显了开源替代方案的潜力。此外,该数据集还揭示了模型在复杂视觉-语言推理、多跳推理和情感理解等任务上的持续挑战,为下一代社交网络服务的智能化发展提供了重要参考。
相关研究论文
- 1SNS-Bench-VL: Benchmarking Multimodal Large Language Models in Social Networking Services北京航空航天大学, 小红书有限公司, 复旦大学, 牛津大学 · 2025年
以上内容由遇见数据集搜集并总结生成



