five

FakeSV|假新闻检测数据集|短视频分析数据集

收藏
arXiv2022-12-02 更新2024-08-06 收录
假新闻检测
短视频分析
下载链接:
http://arxiv.org/abs/2211.10973v2
下载链接
链接失效反馈
资源简介:
FakeSV是中国科学院计算技术研究所智能信息处理重点实验室创建的大型中文假新闻短视频数据集,包含1827条视频,涵盖新闻内容、用户评论及发布者信息。该数据集通过从官方事实核查网站爬取文章,提取关键事件描述,进而从中国流行的短视频平台如抖音和快手收集相关视频。FakeSV不仅支持假新闻检测研究,还适用于分析假新闻传播和干预策略,以及用户信任度和易感性分析。
提供机构:
中国科学院计算技术研究所智能信息处理重点实验室
创建时间:
2022-11-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
FakeSV数据集的构建过程始于从多个官方事实核查网站爬取大量辟谣文章,并通过启发式正则表达式提取关键句子,使用BERT模型进行句子表示聚类以去除重复新闻事件。随后,通过泛化这些关键句子生成搜索查询,并从中国的短视频平台(如抖音和快手)爬取相关视频。数据集不仅包含视频内容,还涵盖了用户评论和发布者信息,最终通过人工标注确保了数据的真实性和多样性。
特点
FakeSV数据集是目前最大的中文短视频假新闻数据集,涵盖了新闻内容、用户评论和发布者信息等多模态数据。其特点在于丰富的社交上下文信息,能够支持假新闻检测、传播干预等多种研究任务。此外,数据集还提供了详细的统计分析,揭示了假新闻视频与真实新闻视频在文本、视频质量、音频情感等方面的显著差异。
使用方法
FakeSV数据集可用于多模态假新闻检测模型的训练与评估。研究者可以通过提取视频的文本、音频、关键帧、视频片段、评论和用户信息等多模态特征,利用跨模态注意力机制增强特征表示,并结合社交上下文信息进行假新闻检测。此外,数据集还可用于假新闻传播分析、用户信任度研究等任务,为相关领域的研究提供了丰富的实验数据。
背景与挑战
背景概述
随着短视频平台的普及,它们已成为新闻分享的重要渠道,但同时也成为虚假新闻的新温床。为了应对这一问题,虚假新闻视频检测的研究近年来备受关注。然而,现有研究面临两大障碍:缺乏全面且大规模的数据集,以及对多模态信息的利用不足。为此,Peng Qi等人于2022年构建了名为FakeSV的最大中文虚假新闻短视频数据集,该数据集同时包含新闻内容、用户评论和发布者信息。FakeSV的创建旨在通过多模态信息的融合,提升虚假新闻视频检测的准确性,并为相关研究提供丰富的实验数据。该数据集不仅支持虚假新闻检测任务,还为理解虚假新闻的传播机制提供了重要参考。
当前挑战
FakeSV数据集在构建和应用过程中面临多重挑战。首先,虚假新闻视频检测本身具有复杂性,视频形式的多模态信息(如文本、音频、视觉帧等)需要有效融合,以提取最具信息量的特征。其次,短视频平台提供的视频编辑功能使得虚假新闻视频的视觉内容难以区分,因为真实和虚假新闻视频都可能被修改。此外,虚假新闻视频通常包含部分真实内容,仅通过新闻内容难以准确判断其真实性,必须结合用户评论和发布者信息等社交上下文信息。在数据集构建过程中,如何确保数据的多样性和标注的准确性也是一大挑战,尤其是在大规模数据收集和人工标注的过程中,如何平衡数据质量和标注效率成为关键问题。
常用场景
经典使用场景
FakeSV数据集在虚假新闻检测领域具有广泛的应用,尤其是在短视频平台上。随着短视频平台的普及,虚假新闻的传播速度加快,视频形式的虚假新闻因其多模态特性(如文本、音频、视频帧等)而更具欺骗性。FakeSV通过提供包含新闻内容、用户评论和发布者信息的综合数据集,为研究者提供了一个多模态虚假新闻检测的基准平台。该数据集特别适用于研究如何从多模态信息中提取关键特征,并通过社交上下文信息增强检测效果。
实际应用
FakeSV数据集在实际应用中具有重要的价值,尤其是在短视频平台的虚假新闻检测和干预中。通过该数据集,平台可以开发出自动化的虚假新闻检测系统,实时监控和识别潜在的虚假新闻视频。此外,FakeSV还可以用于个性化推荐系统,向用户推送已被辟谣的视频,从而减少虚假新闻的传播。该数据集的多模态特性使其能够捕捉到虚假新闻的复杂特征,帮助平台更准确地识别和干预虚假新闻的传播。
衍生相关工作
FakeSV数据集的发布催生了一系列相关研究工作,尤其是在多模态虚假新闻检测领域。基于该数据集,研究者提出了多种多模态融合模型,如SV-FEND模型,该模型通过跨模态注意力机制和多模态特征融合,显著提升了虚假新闻检测的准确性。此外,FakeSV还激发了关于虚假新闻传播机制的研究,如虚假新闻的生命周期分析和用户行为分析。这些研究不仅推动了虚假新闻检测技术的发展,还为社交媒体的内容管理提供了新的思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录