FineFake|假新闻检测数据集|多模态分析数据集

arXiv2024-04-28 更新2024-06-24 收录

假新闻检测

多模态分析

下载链接：

https://github.com/Accuser907/FineFake

下载链接

链接失效反馈

资源简介：

FineFake是一个包含16,909个数据样本的多领域知识增强基准，涵盖六个语义主题和八个平台。每个新闻项目都丰富了多模态内容、潜在的社会背景、半手动验证的常识和细粒度注释，超越了传统的二元标签。

创建时间：

2024-03-30

原始信息汇总

FineFake 数据集概述

数据集介绍

FineFake 数据集用于 FineFake : A Knowledge-Enriched Dataset for Fine-Grained Multi-Domain Fake News Detection 研究。该数据集包含文本数据、元数据、图像数据和知识数据。

数据集结构

数据集分为六个主题和八个平台：

主题：政治、娱乐、商业、健康、社会、冲突
平台：Snopes、Twitter、Reddit、CNN、Apnews、Cdc.gov、Nytimes、Washingtonpos

数据文件格式

数据以 pickle 文件形式存储，可以通过以下代码打开： python pip install pickle pip install pandas import pickle as pkl import pandas as pd with open(file_name,"rb") as f: data_df = pkl.load(f) # data_df 是 DataFrame 格式

数据列说明

pickle 文件包含 13 列，每列及其含义如下：

列名	含义
text	新闻正文
image_path	图片路径（相对路径）
entity_id	文本实体的维基ID
topic	六个主题之一
label	标签
fine-grained label	细粒度标签
knowledge_embedding	知识嵌入
description	文本实体描述
relation	关系
platform	新闻来源
author	作者
date	新闻发布日期
comment	评论

标签说明

二元标签："0" 表示假新闻，"1" 表示真新闻。
细粒度标签及其含义：

标签含义

0 真新闻

1 文本-图像不一致

2 内容-知识不一致

3 基于文本的假新闻

4 基于图像的假新闻

5 其他

AI搜集汇总

数据集介绍

构建方式

FineFake数据集的构建方式体现了对多领域假新闻检测的深刻理解与创新实践。该数据集通过整合来自六个语义主题和八个平台的16,909个数据样本，实现了对真实场景中新闻多样性的全面捕捉。每个新闻条目不仅包含多模态内容，还融入了潜在的社会背景、半手动验证的常识知识以及超越传统二元标签的细粒度注释。这种构建方式确保了数据集在内容和结构上的丰富性与准确性，为后续的假新闻检测研究提供了坚实的基础。

特点

FineFake数据集的显著特点在于其多领域知识增强和细粒度注释的独特结合。该数据集不仅涵盖了广泛的新闻主题和平台，还通过引入外部知识图谱和细粒度分类标签，显著提升了数据集的深度和广度。这种设计使得FineFake能够更精确地揭示假新闻的制造策略和内在原因，从而为模型训练和评估提供了更为丰富的信息支持。此外，数据集的公开性和开源性也为全球研究者提供了共享和协作的平台。

使用方法

FineFake数据集的使用方法灵活多样，适用于多种假新闻检测任务。研究者可以利用该数据集进行二元分类、细粒度分类以及多领域适应性任务的训练和评估。具体而言，数据集支持基于文本、图像和外部知识的多模态特征提取，并提供了详细的注释信息以辅助模型理解新闻的真实性和虚假性。通过这些丰富的数据和注释，研究者可以开发和验证更为复杂和精确的假新闻检测模型，从而推动该领域的技术进步。

背景与挑战

背景概述

在当今数字化社会中，社交媒体已成为获取新闻的主要渠道，同时也成为虚假信息传播的温床。为了应对这一挑战，虚假新闻检测成为一个重要的研究领域。FineFake数据集由北京航空航天大学和北京邮电大学的研究团队于2018年创建，旨在通过多领域知识增强和细粒度标注，提供一个全面的虚假新闻检测基准。该数据集包含了16,909个样本，涵盖六个语义主题和八个平台，每个新闻条目都丰富了多模态内容、潜在社交上下文、半手动验证的常识知识以及超越传统二元标签的细粒度标注。FineFake的提出填补了现有基准数据集在多领域新闻多样性捕捉上的不足，为未来的研究提供了准确和可靠的基准。

当前挑战

FineFake数据集在构建过程中面临多个挑战。首先，多领域新闻的多样性使得数据收集和标注变得复杂，需要跨平台和跨主题的全面覆盖。其次，虚假新闻检测的领域问题，如语义主题间的词汇分布差异和平台间虚假新闻比例的不平衡，引入了经典的协变量偏移和标签偏移问题。此外，现有数据集在关联知识或证据的准确性上存在不足，可能导致噪声信息的引入。FineFake通过引入外部知识图谱和细粒度标注策略，试图解决这些挑战，但其复杂性和多模态数据的处理仍需进一步研究和优化。

常用场景

经典使用场景

FineFake数据集在细粒度多领域假新闻检测中展现了其经典应用场景。该数据集通过整合多模态内容、潜在社交背景、半手动验证的常识知识以及细粒度标注，超越了传统的二元标签，为模型提供了丰富的上下文信息。这些特性使得FineFake在处理跨平台和跨主题的假新闻检测任务中表现出色，特别是在需要精确证据和揭示多样化伪造策略的场景中。

衍生相关工作

基于FineFake数据集，研究者们开发了多种知识增强的假新闻检测模型，如KEAN（Knowledge-Enhanced Domain Adaptation Network）。这些模型利用数据集中的外部知识图谱和细粒度标注，显著提升了假新闻检测的准确性和鲁棒性。此外，FineFake还激发了多模态信息融合和跨领域适应性研究，推动了假新闻检测技术的进一步创新和发展。

数据集最近研究

相关研究论文

1
FineFake: A Knowledge-Enriched Dataset for Fine-Grained Multi-Domain Fake News Detection · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

标签	含义
0	真新闻
1	文本-图像不一致
2	内容-知识不一致
3	基于文本的假新闻
4	基于图像的假新闻
5	其他