five

FakeSV

收藏
arXiv2022-12-02 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2211.10973v2
下载链接
链接失效反馈
资源简介:
FakeSV是中国科学院计算技术研究所智能信息处理重点实验室创建的大型中文假新闻短视频数据集,包含1827条视频,涵盖新闻内容、用户评论及发布者信息。该数据集通过从官方事实核查网站爬取文章,提取关键事件描述,进而从中国流行的短视频平台如抖音和快手收集相关视频。FakeSV不仅支持假新闻检测研究,还适用于分析假新闻传播和干预策略,以及用户信任度和易感性分析。

FakeSV is a large-scale Chinese fake news short video dataset developed by the Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences. It contains 1,827 videos, covering news content, user comments, and publisher information. This dataset is constructed by scraping articles from official fact-checking websites, extracting key event descriptions, and then collecting relevant videos from popular Chinese short-video platforms such as Douyin and Kuaishou. FakeSV not only supports research on fake news detection, but also is applicable to the analysis of fake news propagation, intervention strategies, as well as user trust and susceptibility analysis.
提供机构:
中国科学院计算技术研究所智能信息处理重点实验室
创建时间:
2022-11-20
搜集汇总
数据集介绍
main_image_url
构建方式
FakeSV数据集的构建过程始于从多个官方事实核查网站爬取大量辟谣文章,并通过启发式正则表达式提取关键句子,使用BERT模型进行句子表示聚类以去除重复新闻事件。随后,通过泛化这些关键句子生成搜索查询,并从中国的短视频平台(如抖音和快手)爬取相关视频。数据集不仅包含视频内容,还涵盖了用户评论和发布者信息,最终通过人工标注确保了数据的真实性和多样性。
特点
FakeSV数据集是目前最大的中文短视频假新闻数据集,涵盖了新闻内容、用户评论和发布者信息等多模态数据。其特点在于丰富的社交上下文信息,能够支持假新闻检测、传播干预等多种研究任务。此外,数据集还提供了详细的统计分析,揭示了假新闻视频与真实新闻视频在文本、视频质量、音频情感等方面的显著差异。
使用方法
FakeSV数据集可用于多模态假新闻检测模型的训练与评估。研究者可以通过提取视频的文本、音频、关键帧、视频片段、评论和用户信息等多模态特征,利用跨模态注意力机制增强特征表示,并结合社交上下文信息进行假新闻检测。此外,数据集还可用于假新闻传播分析、用户信任度研究等任务,为相关领域的研究提供了丰富的实验数据。
背景与挑战
背景概述
随着短视频平台的普及,它们已成为新闻分享的重要渠道,但同时也成为虚假新闻的新温床。为了应对这一问题,虚假新闻视频检测的研究近年来备受关注。然而,现有研究面临两大障碍:缺乏全面且大规模的数据集,以及对多模态信息的利用不足。为此,Peng Qi等人于2022年构建了名为FakeSV的最大中文虚假新闻短视频数据集,该数据集同时包含新闻内容、用户评论和发布者信息。FakeSV的创建旨在通过多模态信息的融合,提升虚假新闻视频检测的准确性,并为相关研究提供丰富的实验数据。该数据集不仅支持虚假新闻检测任务,还为理解虚假新闻的传播机制提供了重要参考。
当前挑战
FakeSV数据集在构建和应用过程中面临多重挑战。首先,虚假新闻视频检测本身具有复杂性,视频形式的多模态信息(如文本、音频、视觉帧等)需要有效融合,以提取最具信息量的特征。其次,短视频平台提供的视频编辑功能使得虚假新闻视频的视觉内容难以区分,因为真实和虚假新闻视频都可能被修改。此外,虚假新闻视频通常包含部分真实内容,仅通过新闻内容难以准确判断其真实性,必须结合用户评论和发布者信息等社交上下文信息。在数据集构建过程中,如何确保数据的多样性和标注的准确性也是一大挑战,尤其是在大规模数据收集和人工标注的过程中,如何平衡数据质量和标注效率成为关键问题。
常用场景
经典使用场景
FakeSV数据集在虚假新闻检测领域具有广泛的应用,尤其是在短视频平台上。随着短视频平台的普及,虚假新闻的传播速度加快,视频形式的虚假新闻因其多模态特性(如文本、音频、视频帧等)而更具欺骗性。FakeSV通过提供包含新闻内容、用户评论和发布者信息的综合数据集,为研究者提供了一个多模态虚假新闻检测的基准平台。该数据集特别适用于研究如何从多模态信息中提取关键特征,并通过社交上下文信息增强检测效果。
实际应用
FakeSV数据集在实际应用中具有重要的价值,尤其是在短视频平台的虚假新闻检测和干预中。通过该数据集,平台可以开发出自动化的虚假新闻检测系统,实时监控和识别潜在的虚假新闻视频。此外,FakeSV还可以用于个性化推荐系统,向用户推送已被辟谣的视频,从而减少虚假新闻的传播。该数据集的多模态特性使其能够捕捉到虚假新闻的复杂特征,帮助平台更准确地识别和干预虚假新闻的传播。
衍生相关工作
FakeSV数据集的发布催生了一系列相关研究工作,尤其是在多模态虚假新闻检测领域。基于该数据集,研究者提出了多种多模态融合模型,如SV-FEND模型,该模型通过跨模态注意力机制和多模态特征融合,显著提升了虚假新闻检测的准确性。此外,FakeSV还激发了关于虚假新闻传播机制的研究,如虚假新闻的生命周期分析和用户行为分析。这些研究不仅推动了虚假新闻检测技术的发展,还为社交媒体的内容管理提供了新的思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作