BOL4Y; EI22
收藏arXiv2026-04-23 更新2026-04-25 收录
下载链接:
https://escriba.aosfatos.org/en/
下载链接
链接失效反馈官方服务:
资源简介:
本研究构建了两个新颖的视频虚假信息片段检测数据集BOL4Y和EI22,由巴西事实核查机构AosFatos提供。BOL4Y包含538个巴西前总统博索纳罗任期内的争议视频,EI22则收录77个2022年巴西大选期间的选举舞弊指控视频,总计标注了2,433个虚假信息片段。数据集通过Whisper语音识别模型提取音频文本转录,并采用BERTimbau模型进行语义匹配标注。这些数据集首次实现了视频层级虚假信息定位,为事实核查和社交媒体内容审核提供了重要研究基础,可应用于政治虚假信息检测、内容安全预警等领域。
This study constructs two novel video disinformation clip detection datasets, BOL4Y and EI22, provided by the Brazilian fact-checking institution AosFatos. BOL4Y contains 538 controversial videos during the tenure of former Brazilian President Bolsonaro, while EI22 includes 77 videos alleging election fraud during the 2022 Brazilian general election, with a total of 2,433 disinformation clips annotated across the two datasets. The datasets are annotated by extracting audio text transcriptions via the Whisper speech recognition model and performing semantic matching labeling using the BERTimbau model. These datasets enable video-level disinformation localization for the first time, providing an important research foundation for fact-checking and social media content moderation, and can be applied in fields such as political disinformation detection and content security early warning.
提供机构:
马克斯·普朗克信息学研究所; 米纳斯吉拉斯联邦大学; 代尔夫特理工大学; Kunumi研究所
创建时间:
2026-04-23
搜集汇总
数据集介绍

构建方式
在线虚假信息已成为一个严峻的社会挑战,尤其在视频内容领域,由于视频时长较长且信息密度高,传统的整段式真假判别方法难以定位虚假信息的具体出现位置。为填补这一研究空白,BOL4Y与EI22两个数据集应运而生。BOL4Y数据集源自巴西事实核查机构AosFatos对前总统博索纳罗四年来6685项虚假声明的记录,从中筛选出基于视频来源的538个视频,并通过OpenAI Whisper模型将音频转录为文本,再经BERTimbau模型进行语义匹配,最终由人工标注出2355个含有虚假信息的视频片段。EI22数据集则来自AosFatos针对2022年巴西大选中选举舞弊指控的78个核查视频,同样通过Whisper转录和专家标注,形成包含1997个片段、其中78个为虚假声明的高质量标注集。
特点
这两个数据集具有鲜明的创新特色。其一,它们首次聚焦于视频虚假信息跨度检测这一细粒度任务,突破了以往仅对整段视频进行二分类的局限,能够精准定位虚假声明在视频中的具体起止片段。其二,BOL4Y数据集覆盖了博索纳罗四年任期内横跨疫情、基建、选举等多个议题的广泛虚假声明,时间跨度长、主题多样,具有高度的现实代表性。其三,EI22数据集则提供了来自不同发言者(普通选民)的独立场景,便于验证模型的跨数据集泛化能力。此外,两个数据集不仅提供文本转录和标注,还公开了原始音频与视频(部分受限),并遵循FAIR原则,为多模态研究提供了丰富资源。数据集均存在类别不平衡问题,BOL4Y中正负样本比例约为1:143,但实验表明适当的欠采样策略可显著提升分类性能。
使用方法
使用这两个数据集时,研究者可将任务形式化为视频文本片段的二分类问题。具体操作上,首先需利用Whisper等语音识别工具将视频音频转为带时间戳的文本片段。随后,可借鉴论文中的基准方法,采用针对巴西葡萄牙语预训练的BERTimbau或PTT5等语言模型,为每个片段生成稠密向量表示,并通过分类头预测其是否包含虚假信息。训练时需注意严重的类别不平衡问题,建议采用1:10至1:75的欠采样比率以获得最佳宏F1分数(最高可达0.68)。跨数据集实验表明,使用BOL4Y训练的模型在EI22上也可取得0.71的宏F1,验证了方法的迁移性。此外,研究者还可利用公开的音频与原始视频,探索多模态融合策略,或基于时间信息构建滑动窗口预测模型,评估其在时序数据上的泛化能力,从而更贴近真实场景下的虚假信息检测需求。
背景与挑战
背景概述
在数字媒体生态中,视频类虚假信息因其传播迅猛、审核耗时且易跨越语言与文化边界,已成为社会治理与公共安全领域的一项严峻挑战。针对这一现实困境,来自马克斯·普朗克信息学研究所、米纳斯吉拉斯联邦大学、代尔夫特理工大学等机构的学者Breno Matos等人于2026年提出两个开创性数据集——BOL4Y与EI22,旨在填补视频虚假信息细粒度定位这一研究空白。BOL4Y数据集包含538个视频及2355条经事实核查机构AosFatos验证的虚假声明,聚焦巴西前总统博索纳罗在四年任期内发布的虚假信息;EI22则涉及77个视频与78条关于2022年巴西大选舞弊指控的虚假声明。该研究首次将虚假检测从视频级分类推进至片段级识别,显著提升了检测结果的可解释性与实用性,为事实核查与内容审核工具的发展奠定了数据基础。
当前挑战
该领域面临的核心挑战在于:其一,视频虚假信息检测长期以来局限于粗粒度的二元分类,无法定位虚假内容在视频中出现的时间与具体表述,难以辅助事实核查人员快速锁定关键片段;其二,构建过程中需应对大规模视频转录噪声、语种多样性(集中于巴西葡语)、数据类别极度不均衡(正负样本比高达1:140)等难题。研究团队采用Whisper模型提取音频转录文本,再借助BERTimbau与PTT5等预训练语言模型进行段落嵌入与语义匹配,人工标注过程中实现了99.24%的跨标注者一致性。尽管如此,最先进模型在片段级检测上的宏F1分数仅为0.68,且跨数据集泛化性能(F1=0.71)仍需提升,反映出转录质量、长视频分割歧义及跨主题迁移能力等方面的显著技术瓶颈。
常用场景
经典使用场景
在当今数字媒体生态中,视频已成为虚假信息传播的重要载体,然而传统研究仅止步于对整段视频是否包含虚假信息进行二元判断,却无法精准定位虚假声明的具体出现位置。BOL4Y和EI22数据集应运而生,其经典使用场景聚焦于一种全新的任务范式——虚假信息跨度检测(Misinformation Span Detection),旨在从视频音频转录文本中精确识别出承载虚假声明的那些语义片段,从而将粗粒度的视频级分类推进至细粒度的片段级定位。
实际应用
这两个数据集在现实世界中具有迫切的实用价值,尤其服务于事实核查与平台内容审核两大场景。事实核查机构可借助基于此数据集训练出的模型,从冗长的访谈、直播或用户生成视频中自动锁定最可能需要核查的伪造段落,大幅降低人工逐帧审查的耗时耗费。对于YouTube、TikTok等遵循《数字服务法案》(DSA)的平台而言,该工具能精准嵌入虚假信息警告标签于视频播放的精确时刻,在用户接触到不实声明的瞬间提供上下文澄清,实现精细化的实时内容干预。
衍生相关工作
BOL4Y与EI22的发布已催生出多项重要的衍生性工作。它们为基于纯文本的片段级虚假信息检测提供了首个标准化基准,推动了多种现代语言模型(如BERTimbau、PTT5)在此任务上的对比评估。跨数据集实验(BOL4Y训练、EI22测试)获得的0.71 Macro F1分数证明了模型在不同声源间的泛化潜力。未来工作已在探索利用多模态策略(如结合视觉特征)和大型语言模型(LLM)进一步提升检测精度,同时激发学界将相似的数据构建方法论推广至其他语言与地区,以系统性缓解视频虚假信息标注数据的稀缺困境。
以上内容由遇见数据集搜集并总结生成



