five

Official-NV

收藏
arXiv2024-07-28 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.19493v1
下载链接
链接失效反馈
官方服务:
资源简介:
Official-NV数据集由苏州大学计算机科学与技术学院创建,包含10,000条官方发布的英文新闻视频,旨在支持多模态假新闻检测研究。数据集通过从新华网爬取视频并利用大型语言模型生成和人工修改扩展而来,包含5,000条真实视频和5,000条假视频。每条视频包含标题、视频帧和语音文本三种模态,其中假视频至少有一种模态与其他模态信息不一致。该数据集主要用于通过分析多模态信息来提高假新闻检测的准确性。

The Official-NV Dataset was developed by the School of Computer Science and Technology, Soochow University. It consists of 10,000 officially released English news videos, targeted at supporting research on multimodal fake news detection. The dataset is constructed by crawling videos from Xinhua News, followed by expansion via generation with large language models and manual revision. It contains 5,000 authentic videos and 5,000 fake videos. Each video includes three modalities: title, video frames, and speech transcript. For fake videos, at least one modality contains information inconsistent with that from the other modalities. This dataset is primarily utilized to enhance the accuracy of fake news detection through the analysis of multimodal information.
提供机构:
苏州大学计算机科学与技术学院
创建时间:
2024-07-28
搜集汇总
数据集介绍
main_image_url
构建方式
本研究构建了一种名为Official-NV的新闻视频数据集,旨在服务于多模态假新闻检测任务。该数据集的构建始于对新华社发布的官方新闻视频的爬取,随后利用大型语言模型(LLM)生成假新闻数据,并通过人工修改以扩充真实新闻数据。具体而言,数据集包括标题、视频帧和语音文本三种模态信息,通过替换视频帧、修改标题和语音文本的方式生成假新闻,最终形成了包含5000条真实新闻和5000条假新闻的数据集。
特点
Official-NV数据集的特点在于,其包含了官方发布的新闻视频,具有更高的视频质量和较大的视频数量。数据集中的每条新闻都包含三种模态信息,且在假新闻中,三种模态中的至少一种信息与其他两种不一致。此外,该数据集均衡地覆盖了来自新华社‘中国’、‘世界’和‘其他’三个类别的新闻,为多模态假新闻检测研究提供了丰富而多样的资源。
使用方法
使用Official-NV数据集时,研究者可以依据数据集中的三种模态信息进行多模态假新闻检测模型的训练和评估。实验表明,当模型利用所有三种模态信息时,其性能显著优于仅使用单一模态的情况。此外,该数据集的基准模型实验结果为后续研究提供了可靠的性能比较基础。
背景与挑战
背景概述
在当今信息化社会,新闻媒体尤其是视频新闻媒体已经成为日常生活中不可或缺的一部分。然而,这也使得虚假新闻的传播风险日益增加。近年来,多模态虚假新闻检测逐渐受到重视。为此,王毅豪、陈立智等研究人员于2024年在论文《OFFICIAL-NV: A NEWS VIDEO DATASET FOR MULTIMODAL FAKE NEWS DETECTION》中提出了一个名为Official-NV的数据集。该数据集由新华出版社官方发布的英语新闻视频组成,旨在解决现有数据集中官方发布视频数量少、质量参差不齐的问题。Official-NV包含了5000个真实视频和5000个虚假视频,每个视频包含标题、视频帧和语音文本三种模态信息,其中虚假视频的某一模态信息与其他模态不一致。
当前挑战
在构建Official-NV数据集的过程中,研究人员遇到了诸多挑战。首先,现有的虚假新闻视频数据集大多数由用户生成的内容组成,官方发布的视频数量较少,导致数据集规模有限。其次,构建过程中需要解决如何生成高质量的虚假新闻视频问题,研究人员采用了LLM生成和人工修改的方式扩展数据集。此外,多模态虚假新闻检测面临的技术挑战包括如何有效融合不同模态的信息,提高检测模型的准确性和鲁棒性。
常用场景
经典使用场景
在多媒体 fake news 检测领域,Official-NV 数据集的典型应用场景在于,通过其包含的官方发布新闻视频,为研究者提供了一个高质量、大规模的视频数据源。该数据集整合了标题、视频帧和语音文本三种模态的信息,使得研究者在进行多模态融合的 fake news 检测时,能够更加精确地识别和定位不一致信息,从而提高检测的准确性和效率。
衍生相关工作
基于 Official-NV 数据集,研究者已经开展了一系列相关的工作,包括但不限于改进的多模态特征融合方法、针对不同模态的优化算法,以及结合深度学习技术的 scale-up 解决方案。这些衍生工作进一步扩展了 Official-NV 数据集的应用范围,为多模态 fake news 检测领域带来了新的研究视角和技术突破。
数据集最近研究
最新研究方向
在多模态虚假新闻检测领域,官方发布新闻视频数据集的研究方向日益受到重视。最新研究中,Official-NV数据集的提出,标志着该领域的一个新进展。该数据集采集自新华社官方发布的英文新闻视频,并经过深度学习模型生成和人工修改扩展,以解决现有数据集中存在的官方内容不足、质量参差不齐的问题。Official-NV不仅包含数量庞大且质量较高的视频,还通过综合运用标题、视频帧和语音文本三种模态的信息,为多模态虚假新闻检测提供了新的视角和方法。实验结果表明,当模型利用所有三种模态信息时,性能显著优于单一模态,这为后续研究提供了新的方向和机遇。
相关研究论文
  • 1
    Official-NV: A News Video Dataset for Multimodal Fake News Detection苏州大学计算机科学与技术学院 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作