five

FineFake|假新闻检测数据集|多模态分析数据集

收藏
arXiv2024-04-28 更新2024-06-24 收录
假新闻检测
多模态分析
下载链接:
https://github.com/Accuser907/FineFake
下载链接
链接失效反馈
资源简介:
FineFake是一个包含16,909个数据样本的多领域知识增强基准,涵盖六个语义主题和八个平台。每个新闻项目都丰富了多模态内容、潜在的社会背景、半手动验证的常识和细粒度注释,超越了传统的二元标签。
创建时间:
2024-03-30
原始信息汇总

FineFake 数据集概述

数据集介绍

FineFake 数据集用于 FineFake : A Knowledge-Enriched Dataset for Fine-Grained Multi-Domain Fake News Detection 研究。该数据集包含文本数据、元数据、图像数据和知识数据。

数据集结构

数据集分为六个主题和八个平台:

  • 主题:政治、娱乐、商业、健康、社会、冲突
  • 平台:Snopes、Twitter、Reddit、CNN、Apnews、Cdc.gov、Nytimes、Washingtonpos

数据文件格式

数据以 pickle 文件形式存储,可以通过以下代码打开: python pip install pickle pip install pandas import pickle as pkl import pandas as pd with open(file_name,"rb") as f: data_df = pkl.load(f) # data_df 是 DataFrame 格式

数据列说明

pickle 文件包含 13 列,每列及其含义如下:

列名 含义
text 新闻正文
image_path 图片路径(相对路径)
entity_id 文本实体的维基ID
topic 六个主题之一
label 标签
fine-grained label 细粒度标签
knowledge_embedding 知识嵌入
description 文本实体描述
relation 关系
platform 新闻来源
author 作者
date 新闻发布日期
comment 评论

标签说明

  • 二元标签:"0" 表示假新闻,"1" 表示真新闻。
  • 细粒度标签及其含义:
    标签 含义
    0 真新闻
    1 文本-图像不一致
    2 内容-知识不一致
    3 基于文本的假新闻
    4 基于图像的假新闻
    5 其他
AI搜集汇总
数据集介绍
main_image_url
构建方式
FineFake数据集的构建方式体现了对多领域假新闻检测的深刻理解与创新实践。该数据集通过整合来自六个语义主题和八个平台的16,909个数据样本,实现了对真实场景中新闻多样性的全面捕捉。每个新闻条目不仅包含多模态内容,还融入了潜在的社会背景、半手动验证的常识知识以及超越传统二元标签的细粒度注释。这种构建方式确保了数据集在内容和结构上的丰富性与准确性,为后续的假新闻检测研究提供了坚实的基础。
特点
FineFake数据集的显著特点在于其多领域知识增强和细粒度注释的独特结合。该数据集不仅涵盖了广泛的新闻主题和平台,还通过引入外部知识图谱和细粒度分类标签,显著提升了数据集的深度和广度。这种设计使得FineFake能够更精确地揭示假新闻的制造策略和内在原因,从而为模型训练和评估提供了更为丰富的信息支持。此外,数据集的公开性和开源性也为全球研究者提供了共享和协作的平台。
使用方法
FineFake数据集的使用方法灵活多样,适用于多种假新闻检测任务。研究者可以利用该数据集进行二元分类、细粒度分类以及多领域适应性任务的训练和评估。具体而言,数据集支持基于文本、图像和外部知识的多模态特征提取,并提供了详细的注释信息以辅助模型理解新闻的真实性和虚假性。通过这些丰富的数据和注释,研究者可以开发和验证更为复杂和精确的假新闻检测模型,从而推动该领域的技术进步。
背景与挑战
背景概述
在当今数字化社会中,社交媒体已成为获取新闻的主要渠道,同时也成为虚假信息传播的温床。为了应对这一挑战,虚假新闻检测成为一个重要的研究领域。FineFake数据集由北京航空航天大学和北京邮电大学的研究团队于2018年创建,旨在通过多领域知识增强和细粒度标注,提供一个全面的虚假新闻检测基准。该数据集包含了16,909个样本,涵盖六个语义主题和八个平台,每个新闻条目都丰富了多模态内容、潜在社交上下文、半手动验证的常识知识以及超越传统二元标签的细粒度标注。FineFake的提出填补了现有基准数据集在多领域新闻多样性捕捉上的不足,为未来的研究提供了准确和可靠的基准。
当前挑战
FineFake数据集在构建过程中面临多个挑战。首先,多领域新闻的多样性使得数据收集和标注变得复杂,需要跨平台和跨主题的全面覆盖。其次,虚假新闻检测的领域问题,如语义主题间的词汇分布差异和平台间虚假新闻比例的不平衡,引入了经典的协变量偏移和标签偏移问题。此外,现有数据集在关联知识或证据的准确性上存在不足,可能导致噪声信息的引入。FineFake通过引入外部知识图谱和细粒度标注策略,试图解决这些挑战,但其复杂性和多模态数据的处理仍需进一步研究和优化。
常用场景
经典使用场景
FineFake数据集在细粒度多领域假新闻检测中展现了其经典应用场景。该数据集通过整合多模态内容、潜在社交背景、半手动验证的常识知识以及细粒度标注,超越了传统的二元标签,为模型提供了丰富的上下文信息。这些特性使得FineFake在处理跨平台和跨主题的假新闻检测任务中表现出色,特别是在需要精确证据和揭示多样化伪造策略的场景中。
衍生相关工作
基于FineFake数据集,研究者们开发了多种知识增强的假新闻检测模型,如KEAN(Knowledge-Enhanced Domain Adaptation Network)。这些模型利用数据集中的外部知识图谱和细粒度标注,显著提升了假新闻检测的准确性和鲁棒性。此外,FineFake还激发了多模态信息融合和跨领域适应性研究,推动了假新闻检测技术的进一步创新和发展。
数据集最近研究
最新研究方向
在虚假新闻检测领域,FineFake数据集的最新研究方向聚焦于多领域细粒度检测与知识增强的结合。该数据集不仅涵盖了多个语义主题和平台,还通过半手动验证的通用知识丰富了每条新闻的内容,超越了传统的二元标签。研究者们正致力于开发知识增强的领域自适应网络,以应对跨平台和跨主题的检测挑战。此外,细粒度标注策略的引入,使得研究能够深入探索虚假新闻背后的形成原因,从而提升检测模型的准确性和解释性。这些研究不仅推动了虚假新闻检测技术的发展,也为未来在多模态和多领域环境下的新闻真实性评估提供了坚实的基础。
相关研究论文
  • 1
    FineFake: A Knowledge-Enriched Dataset for Fine-Grained Multi-Domain Fake News Detection · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录