GroundLie360
收藏arXiv2025-09-08 更新2025-11-24 收录
下载链接:
https://github.com/yangbingjian/GroundLie360
下载链接
链接失效反馈官方服务:
资源简介:
GroundLie360数据集是由新加坡国立大学等机构创建的,包含了2000多个经过事实核查的视频,这些视频包含虚假类型和定位注释。数据集提供了对虚假内容的统一基准,包括假标题/假演讲、时间编辑、计算机生成图像、矛盾内容和未支持内容等五种虚假类型。数据集旨在解决在线虚假视频带来的社会风险,通过细粒度的多模态定位,帮助识别和解释虚假内容,为可解释的多模态虚假信息检测奠定了基础。
The GroundLie360 dataset was created by institutions including the National University of Singapore, and contains over 2,000 fact-checked videos annotated with deception types and localization information. It provides a unified benchmark for misinformation, covering five categories of deceptive content: fake headlines/fake speeches, temporal editing, computer-generated imagery (CGI), contradictory content, and unsupported content. This dataset aims to address the social risks posed by online deceptive videos, and facilitates the identification and interpretation of misinformation through fine-grained multimodal localization, laying a foundation for explainable multimodal misinformation detection.
提供机构:
新加坡国立大学计算机科学学院,新加坡大学多媒体软件国家工程研究中心,新加坡国立大学计算机科学学院,武汉新加坡计算机科学学院,武汉大学,中国武汉,中国北京,中国北京大学,中国武汉,中国
创建时间:
2025-09-08
搜集汇总
数据集介绍

构建方式
在多媒体虚假信息检测领域,GroundLie360数据集通过严谨的三阶段流程构建而成。数据采集阶段依托权威事实核查平台Snopes,筛选出具有社会影响力的视频事件作为基础素材;数据整理阶段采用人工分类机制,将原始视频与辅助性证据视频进行系统性分离;标注环节创新性地引入三级分层标注框架,涵盖二元真实性判定、六类虚假类型识别及跨模态细粒度定位,所有标注均以Snopes核查证据为支撑,并通过双人独立标注与专家仲裁机制确保数据质量。
特点
作为首个面向多模态虚假信息定位任务的基准数据集,GroundLie360展现出鲜明的多维特征。其内容构成涵盖2000余个经过事实核验的真实新闻视频,均衡覆盖文本、语音与视觉三种模态的虚假内容。数据集独创性地定义了六类虚假信息范式,包括虚假标题、篡改时序、计算机生成图像等典型模式,并支持跨模态矛盾内容的检测。特别值得关注的是,该数据集提供了词元级文本定位、时间戳级视频定位与边界框级空间定位的三重细粒度标注体系,为可解释性虚假信息检测研究提供了坚实基础。
使用方法
该数据集为多模态虚假信息检测任务提供了系统化研究框架。研究者可基于其三级标注体系开展二元真实性分类、多标签虚假类型识别及跨模态定位等分层任务。在技术实现层面,可采用视觉语言模型构建端到端检测 pipeline,通过文本分析模块处理标题与语音转录,视频时空分析模块解析视觉篡改痕迹,跨模态对齐模块捕捉图文不一致特征。实验设计建议遵循数据集预设的七成训练、一成五验证与一成五测试划分方案,并综合运用分类指标与定位交并比等多维评估准则,以全面衡量模型在复杂真实场景下的性能表现。
背景与挑战
背景概述
随着社交媒体平台的迅猛发展,多模态虚假信息已成为影响公众舆论与行为的关键因素。GroundLie360数据集由武汉大学、新加坡国立大学和北京大学的研究团队于2025年联合创建,旨在应对多模态内容中虚假信息的细粒度定位难题。该数据集聚焦于多模态虚假信息 grounding 任务,通过整合视频、语音与文本模态,构建了包含2000余条经事实核查的视频样本,并标注了六类虚假信息类型及跨模态定位信息。其创新性在于首次实现了对真实场景中多模态虚假信息的结构化解析,为可解释性人工智能研究提供了重要基础。
当前挑战
多模态虚假信息检测领域面临类型混淆的复杂性,不同虚假类型常同时出现导致分类困难。构建过程中需处理视频与文本模态间的语义对齐问题,例如跨模态矛盾内容需要精确匹配视觉与语言信息。数据标注面临主观性挑战,细微的语境差异可能导致标注不一致。此外,时序编辑与CGI内容的时空定位要求模型具备高精度帧级分析能力,而现实场景中多媒体数据的噪声干扰进一步增加了标注与验证的复杂度。
常用场景
经典使用场景
在多媒体信息安全研究领域,GroundLie360数据集为多模态虚假信息检测任务提供了关键支撑。该数据集通过整合视频、语音和文本三种模态的细粒度标注,成为评估模型跨模态推理能力的基准平台。研究者可基于其六类虚假内容分类体系,开发能够同时识别篡改标题、伪造语音、时序编辑等复杂欺骗手法的算法,显著提升了虚假内容检测的精确度与可解释性。
实际应用
在现实应用层面,GroundLie360为社交媒体平台的内容审核系统提供了技术验证标准。其支持的时序定位与空间标注能力,可辅助开发实时监测视频篡改的预警工具。新闻机构借助该数据集的跨模态矛盾检测机制,能够快速识别标题与视频内容语义冲突的误导性新闻,从而提升公众对多媒体信息的辨别能力。
衍生相关工作
基于该数据集提出的FakeMark基准框架,开创了视觉语言模型与问答驱动相结合的多模态定位新范式。后续研究受其启发,衍生出如VMID的多模态融合检测模型、SNIFFER的上下文误导识别系统等创新工作。这些进展共同推动了从单一模态检测到跨模态协同验证的技术演进,为构建更鲁棒的虚假信息防御体系提供了方法论支撑。
以上内容由遇见数据集搜集并总结生成



