ThumbnailTruth

Name: ThumbnailTruth
Creator: 拉合尔管理科学大学计算机科学系
Published: 2025-09-05 08:02:17
License: 暂无描述

arXiv2025-09-05 更新2025-09-09 收录

下载链接：

https://github.com/wajihanaveed/ThumbnailTruth.git

下载链接

链接失效反馈

官方服务：

资源简介：

ThumbnailTruth数据集是一个多模态数据集，包含来自八个国家（四个发展中国家和四个发达国家）的2,843个YouTube视频，其中1,359个视频的缩略图具有误导性。这些误导性缩略图视频的总观看量超过76亿次，为研究跨文化背景下误导性缩略图问题提供了独特的视角。数据集包括视频缩略图、视频到文本描述和字幕转录等信息，用于全面分析内容并标记误导性缩略图。该数据集旨在帮助研究和开发用于检测YouTube等平台上的误导性缩略图的模型，从而提高内容质量和用户信任度。

ThumbnailTruth Dataset is a multimodal dataset containing 2,843 YouTube videos from eight countries (four developing and four developed), among which 1,359 videos feature misleading thumbnails. The total views of these videos with misleading thumbnails exceed 7.6 billion, providing a unique perspective for studying the issue of misleading thumbnails across cultural contexts. The dataset encompasses video thumbnails, video-to-text descriptions, subtitle transcriptions and other relevant information, enabling comprehensive content analysis and labeling of misleading thumbnails. This dataset is designed to support research and development of models for detecting misleading thumbnails on platforms such as YouTube, thereby enhancing content quality and user trust.

提供机构：

拉合尔管理科学大学计算机科学系

创建时间：

2025-09-05

搜集汇总

数据集介绍

构建方式

ThumbnailTruth数据集构建采用多阶段跨文化采样策略，通过虚拟专用网络模拟八个国家的区域设置，涵盖发达国家与发展中国家的代表性样本。数据采集结合Google Trends热门搜索词与随机字符搜索策略，从YouTube主搜索结果和推荐面板系统性地收集视频资源。采用双人标注机制与标准化代码手册，通过科恩卡帕系数达到0.9633的标注一致性，最终形成包含2,843个视频（1,359个误导性缩略图视频）的高质量数据集。

特点

该数据集具备显著的跨文化表征能力，覆盖娱乐、体育、新闻等多元内容类别，且误导性样本与正常样本保持均衡分布。数据集独特收录了累计超过76亿次观看的高影响力视频，包含地域特有的误导性设计模式（如南亚地区的名人夸张场景）。每个样本均提供多模态特征：原始缩略图像、自动生成的字幕文本（支持多语言翻译）以及通过Gemini、Claude等模型生成的视频内容描述，构成三维度的分析基础。

使用方法

研究者可通过加载多模态输入（图像+文本）至大型语言模型进行端到端分析，采用零样本、固定少样本或动态少样本提示策略。动态少样本方法通过Sentence-BERT计算视频描述语义相似度，自动选取上下文相关的示例增强模型推理。评估流程包含逐步比对缩略图与视频内容的语义一致性，输出二元分类结果及解释性推理。数据集支持跨国家/类别细分评估，并提供完整代码库实现 pipeline 复现。

背景与挑战

背景概述

ThumbnailTruth数据集由巴基斯坦拉合尔管理科学大学计算机科学系的研究团队于2025年创建，旨在应对YouTube等视频平台中误导性缩略图的全球性挑战。该数据集包含来自八个国家的2,843个视频样本，其中1,359个被标注为误导性缩略图视频，总观看量超过76亿次。其核心研究问题聚焦于通过多模态大语言模型技术，检测跨文化语境下的缩略图与视频内容语义不一致性，为平台内容审核机制提供数据支撑，对数字媒体诚信治理和用户体验优化领域产生显著影响。

当前挑战

该数据集解决的领域挑战在于误导性缩略图的跨文化检测难题，需处理视觉夸张、名人身份篡改、文化特定敏感内容等复杂语义差异。构建过程中的挑战包括多语言字幕的标准化处理、视频描述生成的准确性保障，以及通过人工标注确保标注一致性（Cohen's Kappa达0.9633）。此外，需平衡发达国家与发展中国家的样本代表性，并克服AI模型对文化语境理解的局限性。

常用场景

经典使用场景

在数字媒体内容可信性研究领域，ThumbnailTruth数据集为多模态大语言模型提供了评估误导性缩略图检测性能的基准平台。该数据集涵盖八个国家2843个视频样本，包含1359个具有误导性缩略图的案例，这些视频累计获得76亿次观看，为跨文化语境下的内容真实性分析提供了丰富素材。研究者通过整合视频文本描述、缩略图像和字幕转录三种模态，构建了全面的内容一致性评估框架。

衍生相关工作

基于该数据集衍生的经典工作包括多模态融合检测框架CHECKER的性能对比研究，以及针对不同文化语境下误导性内容特征的跨区域分析。研究者利用数据集中的跨国家样本开发了动态少样本提示技术，通过语义相似的示例提升模型在特定文化背景下的检测准确率。这些工作推动了视觉-语言模型在内容审核领域的应用边界，为构建适应性更强的数字内容治理方案提供了技术路径。

数据集最近研究